微调Qwen2.5-coder,只用GRPO!打造能“懂你时间表”的AI工具人! 下午2时 2025/05/09 作者 AI技术研习社 用GRPO训练自己的推理模型: “不用表标、不用表达式,只用“提示 + 奖励”也能教会模型学习。”
我花了5分钟,成功部署阿里QwQ-32B,秒出的感觉太爽了 下午7时 2025/04/12 作者 机器学习算法与自然语言处理 业研究人员。 社区的愿景 是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进