业界突破多模态泛化推理能力,OPPO研究院&港科广提出OThink-MR1技术

研究人员提出了一项新技术OThink-MR1,通过动态强化学习提升多模态语言模型的泛化推理能力。该技术结合了动态KL散度策略和精心设计的奖励模型,显著改善了模型在多种任务上的表现。

阿里 MinMo 登场,多模态语音交互 “内卷” 升级!

阿里通义实验室推出的MinMo多模态大型语言模型在语音交互领域表现卓越,能够实现无缝语音交互,支持多种任务处理和多样化可控生成。其主要功能包括全双工语音交互、多样化可控生成以及多任务处理能力。应用场景涵盖智能客服、语音助理、人机对话系统及语音翻译等场景。

「空间推理」成大厂竞逐焦点,为什么让大模型理解「内外远近」更重要?

本周解读③个值得关注的AI及机器人领域要事,包括「空间推理」成为各大公司竞逐的关键技术方向;模型越强反而可能变得保守,以及LeCun关于AGI等议题的新见解。重点探讨了空间推理的重要性及其在多领域的潜在应用。