Logic-RL:成功复现DeepSeek R1 Zero的逻辑推理强化学习项目,专为解决复杂的逻辑谜题而生。亮点:
-
在2K Tiny Logic Puzzle数据集上完美复现,准确率高达100%; -
支持多语言推理,中文推理过程搭配英文答案输出; -
强化学习驱动,模型输出长度优化,平均长度降低30%。



参考文献:
[1] https://github.com/Unakar/Logic-RL
(文:NLP工程化)
Logic-RL:成功复现DeepSeek R1 Zero的逻辑推理强化学习项目,专为解决复杂的逻辑谜题而生。亮点:
参考文献:
[1] https://github.com/Unakar/Logic-RL
(文:NLP工程化)