AI能看懂图像却算不好距离,上交时间-空间智能基准难倒9大顶尖多模态模型

上海交通大学联合团队发布STI-Bench,评估多模态大模型的空间-时间理解能力。结果显示当前最强模型在自动驾驶和机器人操作任务中表现不佳,准确率低于50%。论文、代码及数据已开源,为改善MLLM空间智能提供了新基准。

首次引入强化学习!火山引擎Q-Insight让画质理解迈向深度思考

Q-Insight 提出了一种基于强化学习训练的多模态大模型图像画质理解方案,通过挖掘大模型自身的推理潜力,实现对图像质量的深度理解,并在多个任务上达到业界领先水平。