资讯
国际
分享
大模型
学术
开源
机器人
关于我们

nanoGRPO：一个轻量的GRPO实现

上午8时 2025/03/09 作者 NLP工程化

nanoGRPO：一个轻量的Group Relative Policy Optimization (GRPO) 实现，为语言模型优化带来高效解决方案。亮点：

仅需8GB显存即可运行，适配RTX 4060；
120步训练即可显著提升模型表现；
独特的GRPO损失函数，优化效果显著。

参考文献：
[1] http://github.com/joey00072/nanoGRPO

（文：NLP工程化）

分类开源标签 8GB 显存、 Group Relative Policy Optimization (GRPO)、 joey00072、未知、轻量、高效

对话何小鹏：吸引最顶尖人才，是做好人形机器人的关键

Arc Virtual Cell Atlas：加速虚拟细胞模型创建的高质量数据集宝库

发表评论取消回复

评论

名称电子邮箱地址网站地址

在此浏览器中保存我的显示名称、邮箱地址和网站地址，以便下次评论时使用。

Δ

搜索

2025年 AGI AI AI技术 Anthropic ChatGPT Claude DeepSeek DeepSeek-R1 DeepSeek R1 GitHub GPT-4o LLM Manus Meta OpenAI Python Sam Altman 人工智能人形机器人具身智能大型语言模型大模型大语言模型字节跳动开源强化学习微软扩散模型技术创新智能体木易机器学习深度学习清华大学生成式AI 用户体验百度腾讯自然语言处理英伟达谷歌阿里云阿里巴巴马斯克

近期文章

从「记忆解题」到「深度推理」：港科大推出首个本科数学动态评测基准 UGMathBench
灵活性和速度接近人类！Figure机器人进厂打工，内置Helix模型升级实现超强可扩展性
对话 PyTorch 掌门人 Matt White：AI 应用应该做到“润物细无声”
这家公司接住DeepSeek流量，被阿里云、美团争相押注
热捧与嘲讽交织中，人形机器人公司“顶流”摸索短期出路

分类

分享
国际
大模型
学术
开源
机器人
资讯

2025 年 6 月
一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

« 5 月

归档

2025 年 6 月
2025 年 5 月
2025 年 4 月
2025 年 3 月
2025 年 2 月
2025 年 1 月
2024 年 12 月
2024 年 11 月

AI新闻 | X平台｜ APK反编译｜京ICP备2024096144号｜

© 2025 每时AI • Built with GeneratePress

下载我们的APP，AI秒送达！立即下载

×

×

下载每时AI手机APP

和大家一起交流AI最新资讯！