阿里多模态推理模型开源!精准捕捉视频隐藏信息,三大杀手锏让AI更懂“人情世故”
阿里通义实验室开源多模态推理模型HumanOmniV2,通过引入强制上下文总结机制、大模型驱动的多维度奖励体系以及基于GRPO的优化训练方法,实现对多模态信息全面理解。HumanOmniV2在633个视频和2689个问题的评测基准IntentBench上准确率达到69.33%。
阿里通义实验室开源多模态推理模型HumanOmniV2,通过引入强制上下文总结机制、大模型驱动的多维度奖励体系以及基于GRPO的优化训练方法,实现对多模态信息全面理解。HumanOmniV2在633个视频和2689个问题的评测基准IntentBench上准确率达到69.33%。