训练您自己的推理 LLM

下午4时 2025/02/27 作者 NLP工程化

训练您自己的推理 LLM。让 Llama 3.1 (8B)借助 DeepSeek 的 GRPO 实现思维链。Unsloth 可减少 90% 的 VRAM 使用量。了解：
• 奖励函数 + 数据集准备
• 在免费的 Colab GPU 上进行训练
• 运行 + 评估

参考文献：
[1] Guide: https://docs.unsloth.ai/basics/reasoning-grpo-and-rl/tutorial-train-your-own-reasoning-model-with-grpo

（文：NLP工程化）