多模态模型归档 - 第5页共7页

近日前沿进展回顾及再看多模态R1推理如何做？两类、五个代表工作实现思路总结

2025年3月19日14时作者老刘说NLP

大多未探索的挑战。与文本推理不同，
多模态推理要求模型迭代地从图像中提取、构建和验证信息
。
关于多

2025年3月17日23时作者机器之心

ver 在其主题报告中展望了基础模型的未来研究方向，其中包括了 Inference Time Com

2025年3月16日23时作者新智元

新加坡国立大学华人团队提出InterFeedback框架，评估大规模多模态模型在人类反馈下的表现，结果显示最先进的LMM通过人类反馈纠正结果的比例不到50%。

2025年2月21日19时作者智能涌现

阶跃星辰在2025年生态开放日上回应DeepSeek，宣布开源两款多模态模型，并提出AGI的下一个阶段应为多模态推理及AI Agent。

2025年2月19日8时作者 AIGC开放社区

专注AIGC领域的专业社区报道了清华大学和中南大学联合开源的可视化交互实体AI Agent模型LEGENT。它允许用户在3D虚拟空间与智能体互动，实现包括物体操作等复杂任务。

2025年2月13日23时作者极市干货

专门用于评估多模态大模型（MLLMs）在真实世界场景中全模态理解能力的基准测试集。研究发现现有的开源

2025年2月12日23时作者量子位

如何？
有新基准来衡量了。
就在最近，小红书和上海交通大学联合提出
WorldSense
，一个全新

2025年2月13日23时2025年2月11日23时作者开源AI项目落地

DeepSeek团队发布的新多模态模型Janus-Pro通过优化训练策略、扩展数据集和扩大模型规模提升了性能，实现高质量的文本到图像生成及多模态理解。