资讯
国际
分享
大模型
学术
开源
机器人
关于我们

37步优化

X-R1: 不到50元，人人都能复现0.5B Aha Moment

2025年2月13日14时作者 PaperAgent

X-R1是基于强化学习的训练框架，目标降低R1复现门槛。通过最少成本在0.5B预训练模型上实现了‘顿悟时刻’效果，使用了更易训练的方法，并优化了数据规模和checkpoint打印。

分类分享标签 37步优化、 Aha Moment、 dhcode-cpp、 Open-R1、低成本复现、强化学习发表评论

搜索

AGI AI AI技术 Anthropic ChatGPT Claude DeepSeek DeepSeek-R1 DeepSeek R1 GitHub GPT-4o LLM Meta OpenAI Python Sam Altman 人工智能人形机器人具身智能大型语言模型大模型大语言模型字节跳动工业机器人开源强化学习微软扩散模型技术创新智能体木易机器学习深度学习清华大学生成式AI 用户体验百度腾讯自然语言处理英伟达谷歌阿里云阿里巴巴马斯克黄仁勋

分类

分享
国际
大模型
学术
开源
机器人
资讯

优必选Walker S2全球首个实现自主换电，7*24小时打工的机器人要来了
ASIC安全芯片量产在即，产研团队部分工作已由AI完成
Nvidia携H20重返中国！黄仁勋：禁令建立在错误假设上
再不管AI就要失控？！美国一众AI大厂和大佬联名发文：是时候监控人工智能的“思想”了
硅谷又掀起口水战：OpenAI等公司齐称xAI不负责任！

2025 年 7 月
一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

« 6 月

归档

2025 年 7 月
2025 年 6 月
2025 年 5 月
2025 年 4 月
2025 年 3 月
2025 年 2 月
2025 年 1 月
2024 年 12 月
2024 年 11 月

AI新闻 | X平台｜ APK反编译｜京ICP备2024096144号｜

© 2025 每时AI • Built with GeneratePress

下载我们的APP，AI秒送达！立即下载

×