Logic-RL：成功复现DeepSeek R1 Zero的逻辑推理强化学习项目

上午8时 2025/02/07 作者 NLP工程化

Logic-RL：成功复现DeepSeek R1 Zero的逻辑推理强化学习项目，专为解决复杂的逻辑谜题而生。亮点：

在2K Tiny Logic Puzzle数据集上完美复现，准确率高达100%；
支持多语言推理，中文推理过程搭配英文答案输出；
强化学习驱动，模型输出长度优化，平均长度降低30%。

参考文献：
[1] https://github.com/Unakar/Logic-RL

（文：NLP工程化）

发表评论取消回复