数学推理归档

中兴星云拿下推理总分榜一！SuperCLUE 5月成绩出炉

上午11时 2025/05/31 作者新智元

中兴通讯星云大模型在推理榜单上荣获总分第一，并在数学、科学及代码生成等细分领域表现突出。它还通过了国家级权威安全认证，成为业内少数拥有双安全认证的大模型产品。

下午4时 2025/05/29 作者量子位

UC Berkeley团队提出的新方法Intuitor通过优化模型自身的置信程度来提升大模型的复杂推理能力，无需外部奖励信号或标准答案。与传统强化学习相比，Intuitor能有效减少无效响应并提高模型在数学和代码生成任务中的表现。

MLNLP社区分享了关于RHO-1论文的解读，该论文提出了选择性语言建模(SLM)，通过分析文本中的不同token对模型学习的影响，提出只对有价值的token进行训练的方法。此方法能够显著提升效率并提高性能。

下午11时 2025/05/26 作者机器之心

扩散式「发散思维链」—— 一种面向扩散语言模型的新型大模型推理范式。该方法将反向扩散过程中的每一步中

下午4时 2025/05/25 作者量子位

突破参数规模和数据规模时，微软亚洲研究院张丽团队就选择了
另一条路径
。
早在
OpenAI o1

下午11时 2025/05/09 作者机器之心

最近研究发现仅使用一个数学训练数据就能大幅提升大型语言模型在数学推理任务上的表现，论文提出了1-shot RLVR方法，并展示了其在多个数学和非数学推理任务上的应用效果。

下午2时 2025/05/05 作者小兵的AI视界

清华大学和上海人工智能实验室提出测试时强化学习(TTRL)，通过在无标签数据上利用多数投票等方法估计奖励信号来提升大规模语言模型性能。

下午4时 2025/05/04 作者机器之心

习方法」、「无线通信故障定位与根因分析推理模型」、「多模态推理模型」和「推理加速技术」。核心成员毕业