多模态语言模型归档

想清楚再动手：具身智能也要学会脑补未来和择优执行 RSS 2025

2025年7月5日23时作者机器之心

jcsy。她的研究聚焦于开放世界场景下的物体操控与机器人终身学习。吴怡琳本科毕业于上海交通大学，并于

2025年6月26日11时作者机器之心

Computer-using agents 和 Code intelligence，在 NLP 和

2025年4月28日8时作者 PaperWeekly

段不断生成新的 token，推理过程的计算复杂度和 GPU 显存占用逐渐增加，这导致了多模态大模型推

2025年4月9日23时作者极市干货

读
在InternVL-2.5上实现10倍吞吐量提升，模型性能几乎无损失。
>>
加入极市CV技术交

2025年4月7日8时作者 NLP工程化

Llama 4 Scout 和 Llama 4 Maverick 是两个强大的多模态模型，分别拥有16和128个专家，并在多个基准测试中表现出色。它们均能运行于单个 NVIDIA H100 GPU 上，且提供了业界领先的上下文窗口。

2025年3月30日11时作者量子位

研究人员提出了一项新技术OThink-MR1，通过动态强化学习提升多模态语言模型的泛化推理能力。该技术结合了动态KL散度策略和精心设计的奖励模型，显著改善了模型在多种任务上的表现。

2025年2月28日23时作者机器之心

多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，

2025年2月22日14时作者小兵的AI视界

阿里通义实验室推出的MinMo多模态大型语言模型在语音交互领域表现卓越，能够实现无缝语音交互，支持多种任务处理和多样化可控生成。其主要功能包括全双工语音交互、多样化可控生成以及多任务处理能力。应用场景涵盖智能客服、语音助理、人机对话系统及语音翻译等场景。

2025年2月7日16时作者机器之心

多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，

2025年1月8日16时作者开源AI项目落地

南京大学AI团队发布的VITA-1.5开源项目是一款接近实时的多模态大型语言模型，支持中英文，显著降低交互延迟，并在语音处理和图像理解方面取得提升。