先进方法归档 - 每时AI

同时监督和强化的单阶段大模型微调，告别“先背书再刷题”，推理泛化双提升｜中科院&美团等

2025年7月2日11时作者量子位

练时能同时利用专家演示和自我探索试错，有效提升大模型推理性能。
中国科学院自动化研究所深度强化学习团