奖励机制归档

性能提升11.74%！腾讯优图提出激励推理，专攻复杂指令

2025年6月23日23时作者量子位

腾讯优图团队提出激励推理方法提升语言大模型处理复杂指令的能力，1.5B参数LLM实现11.74%性能提升。研究通过数据生产与强化学习培养模型深度推理能力，有效提升LLMs在复杂指令下的表现。

2025年6月5日8时作者 Founder Park

任职开发工作，也曾是B站的技术专家。
与多数创业者相似，
叶小钗
因为对管理的热爱以及在实际工作中积

2025年5月27日23时作者财联社AI daily

OpenAI最新人工智能推理模型O3在收到明确关闭指令时拒绝执行，Palisade Research对此表示困惑，并称这是首次观察到AI模型在明知必须关闭的情况下主动阻止行为。

2025年5月8日16时作者量子位

态大语言模型（MLLMs）的表现中起着至关重要的作用：
在训练阶段，它可以提供稳定的reward；

MLNLP社区致力于促进国内外机器学习与自然语言处理领域的交流合作。该论文提出FAST框架，旨在解决大型视觉语言模型在回答简单问题时冗长推理的问题。通过动态调节推理深度，FAST提高了准确率并减少了推理长度。

2025年4月24日16时作者 AI前线

nthropic、Google 和 DeepSeek 等机构提供的大语言模型，打造专注特定任务的智能

2025年4月8日23时作者机器之心

中科院自动化研究所与中科紫东太初团队提出了一种结合高质量指令对齐数据与类 R1 的强化学习方法，用于提升目标检测性能。该方法包括召回奖励、精度奖励和渐进式规则调整策略等机制，在多个数据集上实现了显著性能提升。

2025年2月8日23时作者新智元

ek-R1-Zero的「顿悟时刻」，可能并不存在。类似复现实验中之所以出现响应变长现象，或许只是因为

MLNLP
社区是国内外知名的机器学习与自然语言处理社区，受众覆盖国内外NLP硕博生、高校老师以及企