摘要信息归档 - 每时AI

大模型微调、强化数据合成开源代表项目解析及DeepSeek-R1发布100天后的复刻总结

2025年5月5日14时作者老刘说NLP

结，DeepSeek-R1发布100天后，我们学到了什么？看看有哪些数据集，微调或者强化学习方式是怎