任务性能提升归档 - 每时AI

Sebastian Raschka长文：DeepSeek-R1、o3背后，RL推理训练正悄悄突破上限

下午4时 2025/04/21 作者机器之心

了？大语言模型（LLM）推理需要强化学习（RL）来「加 buff」。
著名 AI 研究者和博主 Se