大模型微调、强化数据合成开源代表项目解析及DeepSeek-R1发布100天后的复刻总结 2025年5月5日14时 作者 老刘说NLP 结,DeepSeek-R1发布100天后,我们学到了什么?看看有哪些数据集,微调或者强化学习方式是怎