强化学习归档 - 第8页共41页

与Gemini Diffusion共振！首个扩散式「发散思维链」来了

2025年5月26日23时作者机器之心

扩散式「发散思维链」—— 一种面向扩散语言模型的新型大模型推理范式。该方法将反向扩散过程中的每一步中

万字长文总结！Reasoning模型的强化学习实现路径

2025年5月26日14时作者机器学习算法与自然语言处理

业研究人员。
社区的愿景
是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进

刷新世界记录！40B模型+20万亿token，散户组团挑战算力霸权

2025年5月26日11时作者新智元

在区块链技术的支持下，Nous Research的Psyche平台成功实现了去中心化的分布式训练。通过DisTrO优化器和Solana区块链协议，Psyche能够在保持高度同步的同时降低带宽需求，并验证了容错能力和加速训练的能力。这不仅展示了区块链作为解决计算资源分配和协调问题的有效工具，也为未来大规模、去中心化机器学习模型的部署铺平了道路。

微软副总裁X上「开课」，连更关于RL的一切，LLM从业者必读

2025年5月26日11时作者机器之心

微软副总裁 Nando de Freitas 却有自己的想法：他要在 X 上「开课」，发布一些关于人

Qlib：可能是目前业内最完整的 AI 量化投资平台

2025年5月26日8时作者 NLP工程化

微软开源项目Qlib，覆盖因子挖掘、风险建模等AI量化投资流程，支持Transformer、LSTM等多种模型，提供一键自动化研究工具，适合金融AI开发者学习。

UC Berkeley最新VideoMimic的框架：基于视觉模仿学习的类人机器人跨环境控制策略生成方法

2025年5月25日23时作者机器人大讲堂

近日UC Berkeley大学研究人员提出VideoMimic框架，通过观看普通视频自动生成类人机器人的控制策略。无需复杂传感器数据或手工奖励函数，机器人能在多种环境下执行任务。

312条轨迹激发241%性能！上交大与SII开源电脑智能体，超越 Claude 3.7

2025年5月25日16时作者机器之心

上海交通大学和SII的研究表明，仅需312条人类标注轨迹，并通过合成更多动作决策的思维链补全与轨迹增强技术，就能显著提升电脑智能体（Operator）性能。这一方法使得模型性能提升了241%，超越了基础模型Claude 3.7 Sonnet extended thinking模式，成为Windows系统上开源电脑智能体的新一代SOTA。

DeepSeek用的GRPO有那么特别吗？万字长文分析四篇精品论文

2025年5月24日16时作者机器之心

读了 Kimi k1.5、OpenReasonerZero、DAPO 和 Dr. GRPO 四篇论文

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31