RL 归档 - 每时AI

同时监督和强化的单阶段大模型微调，告别“先背书再刷题”，推理泛化双提升｜中科院&美团等

2025年7月2日11时作者量子位

练时能同时利用专家演示和自我探索试错，有效提升大模型推理性能。
中国科学院自动化研究所深度强化学习团

业研究人员。
社区的愿景
是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进

2025年4月27日14时作者老刘说NLP

今日记录了MCP相关进展及语音大模型和推理大模型的最新情况，包括Kimi开源语音模型、关于推理能力实证分析的研究，以及Model Context Protocol (MCP) 的综述等内容。

2025年2月19日8时作者 NLP工程化

Awesome-Slow-Reason-System介绍了一种慢思考推理系统的前沿进展与实践，涵盖了50多篇最新研究成果，涉及多种技术如MCTS、RL等，并提供复现资源。

2025年1月23日23时作者极市干货

↑ 点击
蓝字
关注极市平台
作者丨猛猿
来源丨大猿搬砖简记
编辑丨极市平台
极市导读
探讨Deep

2025年1月23日16时作者机器之心

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000

2024年11月24日13时作者机器之心

Karpathy 认为强化学习早期决策是一个错误，并认为 LeCun 对强化学习的态度一直正确。LeCun 历年推崇的关键技术有无监督学习、自监督学习、Energy-Based SSL 和 Objective-Driven AI，他认为强化学习存在局限性，不适合作为实现人类水平智能的主要方法。