1比特KV量化,10倍吞吐提升无损性能:多模态适用的KV cache量化策略来了,即插即用无需改原模型
读
在InternVL-2.5上实现10倍吞吐量提升,模型性能几乎无损失。
>>
加入极市CV技术交
读
在InternVL-2.5上实现10倍吞吐量提升,模型性能几乎无损失。
>>
加入极市CV技术交
Llama 4 Scout 和 Llama 4 Maverick 是两个强大的多模态模型,分别拥有16和128个专家,并在多个基准测试中表现出色。它们均能运行于单个 NVIDIA H100 GPU 上,且提供了业界领先的上下文窗口。
研究人员提出了一项新技术OThink-MR1,通过动态强化学习提升多模态语言模型的泛化推理能力。该技术结合了动态KL散度策略和精心设计的奖励模型,显著改善了模型在多种任务上的表现。
阿里通义实验室推出的MinMo多模态大型语言模型在语音交互领域表现卓越,能够实现无缝语音交互,支持多种任务处理和多样化可控生成。其主要功能包括全双工语音交互、多样化可控生成以及多任务处理能力。应用场景涵盖智能客服、语音助理、人机对话系统及语音翻译等场景。
南京大学AI团队发布的VITA-1.5开源项目是一款接近实时的多模态大型语言模型,支持中英文,显著降低交互延迟,并在语音处理和图像理解方面取得提升。
本周解读③个值得关注的AI及机器人领域要事,包括「空间推理」成为各大公司竞逐的关键技术方向;模型越强反而可能变得保守,以及LeCun关于AGI等议题的新见解。重点探讨了空间推理的重要性及其在多领域的潜在应用。