强化学习归档 - 第10页共26页

使用DeepSeek的GRPO，7B模型只需强化学习就能拿下数独

下午12时 2025/03/11 作者机器之心

数据，7B 参数模型能单纯通过强化学习学会玩数独吗？
近日，技术博主 Hrishbh Dalal 的

下午11时 2025/03/10 作者 AIGC开放社区

专注AIGC领域的社区分享了两个非常火的开源版本——OpenManus和Owl，它们分别来自MetaGPT和camel团队。OpenManus支持自动化应用如金融分析、电商管理等；而Owl则在实时信息检索、多模态处理方面表现出色，并拥有丰富的工具包。

下午2时 2025/03/10 作者老刘说NLP

，回顾下已有的工作，并看有哪些方案
，并看看具体实现细节。
抓住根本问题，做根因，专题化，体系化，会

下午11时 2025/03/09 作者新智元

1模型，结果令人震惊：在数学推理任务中，它比S1相对提升100%以上，在逻辑推理和MMLU等非训练任

下午4时 2025/03/08 作者机器之心

Reflection AI 成立，旨在开发超级智能。该公司已获1.3亿美元融资，估值达5.55亿美元。两名前谷歌DeepMind成员担任CEO和联合创始人，团队包括多名顶尖AI研究人员和工程师。公司目标是开发自主编程工具，并将聚焦于自动执行狭窄的编程任务。

下午12时 2025/03/08 作者新智元

新智元报道：DeepMind老将Ioannis Antonoglou与Gemini核心成员Misha Laskin联合创立Reflection AI，目标构建超级智能自主系统。公司已获得1.3亿美元融资，并计划通过强化学习提升语言模型的自主能力。

上午8时 2025/03/08 作者 AI寒武纪

DeepMind研究员离职创办新公司Reflection AI获1.3亿美元融资，目标研发自主编程AI智能体，助力自动化繁重工程任务。

下午4时 2025/03/07 作者量子位

DeepSeek研究团队发表LADDER论文，介绍一种通过递归问题分解和强化学习提升AI模型能力的新方法。该方法使7B规模的Qwen模型在MIT Integration Bee比赛中得分达到90分，超越了o1的成绩。

下午4时 2025/03/07 作者新智元

o1、o3-mini、DeepSeek-R1，核心秘密武器便是GRPO，最关键的是训练成本暴降100

下午2时 2025/03/07 作者 AI先锋官

阿里巴巴发布全新推理模型QwQ-32B，参数量为32亿，在多项基准测试中与DeepSeek-R1相当或优于OpenAI的模型。展示了出色的逻辑推理、数学分析和知识储备能力，但在处理复杂问题、运用物理知识和理解特定领域概念方面仍有提升空间。