解释性增强归档 - 每时AI

只训练数学，却在物理化学生物战胜o1！新强化学习算法带来显著性能提升，还缓解训练崩溃问题

2025年6月23日16时作者量子位

模型推理能力再添例证。
来自上海创智学院、上海AI Lab的MM-Eureka系列工作提出了新的强化