跳至内容
每时AI

每时AI

  • 资讯
  • 国际
  • 分享
  • 大模型
  • 学术
  • 开源
  • 机器人
  • 关于我们

GRPO

QwenLong-L1:迈向具备长上下文推理能力的大型语言模型的强化学习方法

上午8时 2025/05/28 作者 NLP工程化

本文提出了一种强化学习框架QwenLong-L1,旨在提升大语言模型在长上下文中的泛化能力,并通过逐步扩展上下文长度、混合奖励函数等方法实现这一目标。

分类 开源 标签 DAPO、 GRPO、 QwenLong-L1、 大语言模型、 强化学习框架、 精确率与召回率 发表评论

微软副总裁X上「开课」,连更关于RL的一切,LLM从业者必读

上午11时 2025/05/26 作者 机器之心

微软副总裁 Nando de Freitas 却有自己的想法:他要在 X 上「开课」,发布一些关于人

分类 学术、 资讯 标签 GRPO、 Nando de Freitas、 强化学习、 深度学习、 目标函数、 重要性采样 发表评论

Unsloth 发布了 GRPO 的新互动教程 (ipynb notebook)

上午8时 2025/05/15 作者 NLP工程化

Unsloth 发布了GRPO的新互动教程,用户可以轻松微调Qwen3-Base并开启其思考模式,实现几乎无监督学习。

分类 开源 标签 Google Colab、 GRPO、 Qwen3-Base、 unsloth、 微信buxingtianxia21、 无监督学习 发表评论

DeepSeek-R1发布100天后:全面复盘推理大模型复现研究及未来!

下午7时 2025/05/06 作者 PaperAgent

RLMs的最新发展及其复现研究总结,强调监督微调和基于可验证奖励的强化学习方法的重要性,并讨论了数据构建、训练策略和奖励设计的关键要素。

分类 分享 标签 DeepSeek-R1、 GRPO、 KL损失、 PPO、 可验证奖励学习、 课程学习 发表评论

强化学习算法梳理:从 PPO 到 GRPO 再到 DAPO

下午2时 2025/05/05 作者 机器学习算法与自然语言处理

业研究人员。
社区的愿景
是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进

分类 学术 标签 DAPO、 GRPO、 KL约束、 Poisson、 token level、 动态采样 发表评论

DeepSeek-R2尚未问世,微软小模型捡漏称王?6000样本炼出「数学作弊器」!

上午11时 2025/05/03 作者 新智元

reasoning、Phi-4-reasoning-plus和Phi-4-mini-reasonin

分类 资讯 标签 140亿参数、 GRPO、 SFT、 大模型、 微软、 阿里云 发表评论

DeepSeek开源Prover-V2强推理模型,网友:奥数从没这么简单过

上午11时 2025/05/01 作者 机器之心

的新消息可没停下来。
前些天到处都在流传着 DeepSeek-R2 即将发布的传言,DeepSee

分类 学术、 资讯 标签 DeepSeek-Prover-V2、 GRPO、 miniF2F、 ProofNet、 中文支持、 学术界 发表评论

强化学习推理现状 — 理解 GRPO 以及从推理模型论文中获得的新见解

下午11时 2025/04/20 作者 NLP工程化

Sebastian Raschka 分享了关于强化学习推理现状的文章内容,包括理解推理模型、RLHF 基础知识、PPO 算法介绍及 GRPO 的应用等,并探讨了训练推理模型的经验和研究论文。

分类 开源 标签 DeepSeek-R1、 GRPO、 PPO、 Sebastian Raschka、 奖励建模、 强化学习 发表评论

Open R1 项目进展第三期

下午2时 2025/04/03 作者 Hugging Face

Ts 数据集
: 通过 R1 模型蒸馏生成近 10 万条高质量编程思维链样本,同时包含 C++ 和

分类 开源 标签 GRPO、 Log Softmax、 trl、 μ、 多节点部署、 生成再提速 发表评论

DeepSeek-R1 技术剖析:没有强化学习基础也能看懂的 PPO & GRPO

下午11时 2025/03/25 作者 极市干货

.zhihu.com/p/22128744640
编辑丨极市平台
极市导读
本文以通俗易懂的方式剖析

分类 学术 标签 GRPO、 PPO、 原理、 应用场景、 强化学习、 数学细节 发表评论
较早文章
页面1 页面2 … 页面4 下一页 →

2025年 AGI AI AI技术 Anthropic ChatGPT Claude DeepSeek DeepSeek-R1 DeepSeek R1 GitHub GPT-4o LLM Manus Meta OpenAI Python Sam Altman 人工智能 人形机器人 具身智能 大型语言模型 大模型 大语言模型 字节跳动 开源 强化学习 微软 扩散模型 技术创新 智能体 木易 机器学习 深度学习 清华大学 生成式AI 用户体验 百度 腾讯 自然语言处理 英伟达 谷歌 阿里云 阿里巴巴 马斯克

近期文章

  • 盲测击败了ElevenLabs的一款TTS:Chatterbox
  • K8S集群化部署RAGFlow文档
  • DeepSeek 发布DeepSeek R1-0528
  • DeepSeek再次升级!R1-0528:站上世界第二,智力全面超越xAI与Meta!
  • WebDancer:迈向自主信息寻求的智能体

分类

  • 分享
  • 国际
  • 大模型
  • 学术
  • 开源
  • 机器人
  • 资讯
2025 年 5 月
一 二 三 四 五 六 日
 1234
567891011
12131415161718
19202122232425
262728293031  
« 4 月    

归档

  • 2025 年 5 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月

AI新闻 | X平台 | APK反编译 | 京ICP备2024096144号 |
© 2025 每时AI • Built with GeneratePress
 下载我们的APP,AI秒送达!  立即下载
×