AI能看懂图像却算不好距离,上交时间-空间智能基准难倒9大顶尖多模态模型
上海交通大学联合团队发布STI-Bench,评估多模态大模型的空间-时间理解能力。结果显示当前最强模型在自动驾驶和机器人操作任务中表现不佳,准确率低于50%。论文、代码及数据已开源,为改善MLLM空间智能提供了新基准。
news
上海交通大学联合团队发布STI-Bench,评估多模态大模型的空间-时间理解能力。结果显示当前最强模型在自动驾驶和机器人操作任务中表现不佳,准确率低于50%。论文、代码及数据已开源,为改善MLLM空间智能提供了新基准。
Google Classroom 新增AI功能,允许教师基于特定文本生成测验题目。该工具支持多种筛选条件和技能指定,仅限订阅Google Workspace for Education的用户使用。
华为训练出的盘古Ultra模型参数量为135B,在数学、编程等推理任务中与DeepSeek-R1相当。该模型在预训练和指令调优阶段采用了Sandwich-Norm层归一化、TinyInit初始化策略及多并行优化技术,实现了52%以上的算力利用率,并在多个数据集上取得优异表现。
字节最新视频生成模型Seaweed-Video仅70亿参数,实现超越同类140亿参数效果。它能根据文本描述创建各种分辨率和时长的视频,并支持图像生成、控制功能增强等新特性。
OpenAI发布了新的编码模型GPT-4.1,宣称其在代码生成和指令遵循方面表现卓越。该模型拥有100万token上下文窗口,并且能够处理约75万单词的内容长度。