强化学习归档

强化学习也能预训练？效果可提升20倍，华人新作引爆RL新范式!

2025年6月29日16时作者新智元

伯克利团队提出InFOM模型，通过流匹配和占据模型实现意图感知的未来状态预测，在强化学习预训练微调任务中表现优异。

2025年6月29日11时作者量子位

扎克伯格从OpenAI挖走四位顶尖华人AI人才，其中包括赵盛佳、任泓宇等多位资深研究员。

2025年6月28日16时作者 AI前线

Meta 招募四名前 OpenAI 研究人员加入其超级智能实验室，该实验室旨在开发超越人类表现的 AI 模型。

2025年6月28日11时作者硅星人Pro

个AI Agent。
最近，Kimi Researcher（深度研究）开启内测。根据官方介绍，其定位

2025年6月27日23时作者机器之心

。
不同于基于 Transformer 的自回归式语言模型，dLLM 基于掩码式扩散模型（maske

2025年6月27日16时作者量子位

阿里发布WebDancer，作为端到端自主信息搜索智能体。它能实现复杂任务如网页遍历、信息搜索和问答，并已开源训练框架。通过四阶段训练范式提升推理、工具使用及泛化能力，已在GAIA和WebWalkerQA上取得显著成绩。

2025年6月27日16时作者机器之心

基于强化学习训练的视觉语言模型成功在开放GUI环境中进行了自我探索，提升了智能体的交互能力。该研究展示了如何结合探索奖励、世界模型和GRPO强化学习来增强智能体的探索效率，并通过经验流蒸馏技术进一步提升了其自主性。

2025年6月27日8时作者 AIGC开放社区

专注于AIGC领域的专业社区报道Meta挖角OpenAI顶级研究员Trapit Bansal加入其新成立的AI超级智能部门。Bansal此前在OpenAI工作多年，并曾是o1模型的基础贡献者之一。

2025年6月26日16时作者钛媒体AGI

足围观。
这辆钱德勒轿车作为“主角”，后座装载着一套无线电接收装置，车顶还架设着醒目的夸张天线。更令