阿里巴巴通义实验室归档

突破全模态AI理解边界：引入上下文强化学习，赋能全模态模型“意图”推理新高度

2025年7月8日23时作者量子位

阿里巴巴通义实验室团队推出的HumanOmniV2，强调模型必须对多模态输入有全局上下文理解的基础上进行推理，解决了现有模型存在的全局理解不足和捷径问题。通过引入强化学习方法、多维度奖励机制等手段提升模型的复杂逻辑推理能力，并构建了高质量数据集与评测基准，最终在多个全模态基准测试中取得了最佳性能。

2025年6月20日23时作者机器之心

LAM论文提出了一种通过单张图像实现即时驱动高斯头像的方法，无需后处理网络和视频数据训练，支持跨平台实时渲染，已在多模态艺术创作、智能交互对话等领域应用。

2025年5月16日14时作者小兵的AI视界

生成幻觉内容或信息过时等问题。为解决这一问题，
检索增强生成（
RAG
）技术应运而生，通过整合外部

2025年4月15日16时作者机器之心

r，只需上传一段参考视频，不仅能学会视频中人物的表情和声音，还能模仿说话风格。相比传统的数字人生产流

2025年3月25日8时作者开源星探

阿里巴巴通义实验室发布的大规模人体重建模型LHM，可在几秒钟内将一张全身照片转换为可动画的3D头像，支持实时渲染和姿势控制。该模型已开源并提供在线试用和本地部署选项，能够降低技术门槛并在多个领域如内容创作、虚拟现实和游戏开发中应用。

2025年3月4日8时作者开源星探

ViDoRAG 是一款专注于视觉文档的开源 RAG 系统，由阿里巴巴通义实验室联合中科大、上海交大推出。它通过多模态混合检索和多智能体迭代推理解决传统 RAG 方法在处理复杂视觉文档时的信息关联性不足和推理能力有限等问题。

2025年2月16日12时作者机器之心

EMO2 是阿里巴巴通义实验室提出的一个音频驱动人像 AI 视频生成的升级版本，通过一张人物肖像图片和任意长度音频生成流畅自然的手部动作、面部表情及身体姿态。

2025年2月13日14时作者 AI先锋官

阿里推出的新技术Animate Anyone 2能够完美替换视频中的任意角色，并且在角色进行复杂动作时保持良好的整体效果。