微调Qwen2.5-coder,只用GRPO!打造能“懂你时间表”的AI工具人! 下午2时 2025/05/09 作者 AI技术研习社 用GRPO训练自己的推理模型: “不用表标、不用表达式,只用“提示 + 奖励”也能教会模型学习。”
新手必看!用 DeepSeek-R1 数据训练出你的专属中文推理模型 下午2时 2025/04/04 作者 小兵的AI视界 进行 SFT ( Supervised Fine-Tuning )的小模型也展现出了强大的效果 。前
用LLM做文本分类,微调选base还是chat 下午2时 2025/01/13 作者 Datawhale 作者:LeonYi 链接:https://www.zhihu.com/question/632473