交叉验证归档 - 每时AI

微调Qwen2.5-coder，只用GRPO！打造能“懂你时间表”的AI工具人！

2025年5月9日14时作者 AI技术研习社

用GRPO训练自己的推理模型：
“不用表标、不用表达式，只用“提示 + 奖励”也能教会模型学习。”

新手必看！用 DeepSeek-R1 数据训练出你的专属中文推理模型

2025年4月4日14时作者小兵的AI视界

进行
SFT
（
Supervised Fine-Tuning
）的小模型也展现出了强大的效果
。前