自然语言+数值双反馈碾压传统RL！Critique-GRPO给模型“写批注”提效300%

MLNLP社区是国内外知名的机器学习与自然语言处理社区，受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。

社区的愿景是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进步，特别是初学者同学们的进步。

来源 | 深度学习自然语言处理

传统强化学习的三大痛点！

想象教AI解数学题：答对给1分，答错给0分（数值反馈）。但研究者发现这套“打分制”存在致命缺陷：

“数值反馈像考试分数，只告诉学生对错，却不解释错在哪、如何改。”

论文：Critique-GRPO: Advancing LLM Reasoning with Natural Language and Numerical Feedback
链接：https://www.arxiv.org/abs/2506.03106

破局：当数值反馈遇上“语言批评”

研究者给LLM请了位“批评家”（GPT-4o），针对错误答案写小作文（CoT Critique）：

[错误分析示例]

Step 1：学生误用相似三角形公式

Step 4：正确推导出R=2r

Step 6：角度计算错误，正确解法应用内切圆公式…

结论：答案错误（正确答案cos2θ=7/25）

这种带步骤批注的反馈，让模型修正成功率暴涨3倍！相比简单说“错”或直接给答案，详细批改才是提分关键。

框架核心三步骤：

公式（通俗版）：
优势值 = (当前答案得分 – 平均分)
通过对比组内表现，让AI认清“什么是真正的好答案”

在数学竞赛（MATH/Olympiad）和科学推理（定理证明/化学生物）八大任务中：

这项研究揭示的“批评式学习”机制，对人类教育同样启发深刻：

研究者也对未来做了一些展望：
“未来或用于多模态推理——让AI看电路图解物理题，结合视觉与文本批评”

（文：机器学习算法与自然语言处理）