孟繁青归档 - 每时AI

上交大等提出MM-Eureka：R1-Zero的「Aha Moment」同样存在于多模态推理

2025年3月18日16时作者 PaperWeekly

本文介绍了一种新的多模态大规模强化学习框架MM-Eureka，该框架能够稳定地训练包括InternVL2.5-Instruct-8B和InternVL2.5-Pretrained-38B在内的多种大型模型，并使用较少的数据实现了性能的提升。