跳至内容
每时AI
菜单
菜单
资讯
国际
分享
大模型
学术
开源
机器人
关于我们
Policy-Gradient
GRPO:零依赖版
上午8时 2025/04/15
作者
NLP工程化
GRPO训练实现极简依赖版本,仅依赖tokenizers和pytorch完成分词与训练。
下载我们的APP,AI秒送达!
立即下载
×