数学推理归档 - 第2页共6页 - 每时AI

R1-Zero的无监督版本来了！SFT不再是必须，EMPO重新定义大模型推理微调

下午4时 2025/04/30 作者 PaperWeekly

本文提出Entropy Minimized Policy Optimization (EMPO)方法，旨在实现完全无监督条件下大模型推理能力的提升。该方法不需要监督微调或人工标注的答案，仅通过强化学习训练从基模型中获得策略，并利用语义相似性聚类生成的多个回答作为奖励信号，从而在数学及其他通用推理任务上取得显著性能提升。

从底层重构强化学习训练框架，阿里高德开源新方法：抛弃替代损失函数，仅需优化原始目标

下午11时 2025/04/25 作者量子位

阿里-高德团队提出组策略梯度优化GPG方法，仅需优化原始目标，解决已有方法偏差，提高训练效率。在实验中，GPG性能全面超越现有方法，有望成为下一代基础模型训练的关键方法。

DeepSeek-R1-Zero被“轻松复现”？10%训练步数实现数学代码双领域对齐

下午11时 2025/04/24 作者 PaperWeekly

通过SRPO方案，快手Kwaipilot团队在处理数学与代码混合数据时实现了效率和效果的双赢。SRPO结合了两阶段训练范式和历史重采样技术，仅用10%的训练步数，在AIME24和LiveCodeBench基准测试中超越了现有模型的表现。

推理模型其实无需「思考」？伯克利发现有时跳过思考过程会更快、更准确

下午4时 2025/04/19 作者机器之心

通过增加推理时的计算量提升性能时，加州大学伯克利分校与艾伦人工智能研究所突然扔出了一颗深水炸弹：
别

3710亿数学tokens，全面开放！史上最大高质量开源数学预训练数据集MegaMath发布

上午11时 2025/04/14 作者机器之心

MegaMath 是一个包含3710亿tokens的开源数学推理预训练数据集，覆盖网页、代码和高质量合成数据三大领域。它首次在规模上超越了DeepSeek-Math Corpus（120B），代表从‘只靠网页’到‘面向推理’的重大跨越。

大模型推理无损加速6.5倍！EAGLE-3碾压一切、延续Scaling Law能力

上午11时 2025/04/10 作者机器之心

token，导致其生成昂贵且缓慢。
近日，EAGLE 团队的新作《EAGLE-3: Scaling

美国奥数题撕碎AI数学神话，顶级模型现场翻车！最高得分5%，DeepSeek唯一逆袭

上午11时 2025/04/02 作者新智元

：在美国数学奥赛，顶级AI模型得分不足5%！来自ETH Zurich等机构的MathArena团队，

产出速度太猛了！阿里又上线了QVQ-Max 视觉推理，还能看手相

下午11时 2025/03/28 作者 AI寒武纪

阿里通义千问上线QVQ-Max视觉推理模型，用户可上传图片或视频进行多任务处理。

DeepSeek-V3-0324开源

上午8时 2025/03/26 作者 NLP工程化

DeepSeek-V3-0324 在数学推理和前端开发方面表现优于 Claude 3.5 和 Claude 3.7 Sonnet，这是 DeepSeek 最佳非推理模型。