多维度奖励机制归档

阿里多模态推理模型开源！精准捕捉视频隐藏信息，三大杀手锏让AI更懂“人情世故”

2025年7月8日23时作者智东西

阿里通义实验室开源多模态推理模型HumanOmniV2，通过引入强制上下文总结机制、大模型驱动的多维度奖励体系以及基于GRPO的优化训练方法，实现对多模态信息全面理解。HumanOmniV2在633个视频和2689个问题的评测基准IntentBench上准确率达到69.33%。