强化学习
阿里发布信息检索Agent,可自主上网查资料,GAIA基准超越GPT-4o 模型&数据开源
阿里发布WebDancer,作为端到端自主信息搜索智能体。它能实现复杂任务如网页遍历、信息搜索和问答,并已开源训练框架。通过四阶段训练范式提升推理、工具使用及泛化能力,已在GAIA和WebWalkerQA上取得显著成绩。
AI 开始「自由玩电脑」了!吉大提出「屏幕探索者」智能体
基于强化学习训练的视觉语言模型成功在开放GUI环境中进行了自我探索,提升了智能体的交互能力。该研究展示了如何结合探索奖励、世界模型和GRPO强化学习来增强智能体的探索效率,并通过经验流蒸馏技术进一步提升了其自主性。
Meta挖走OpenAI顶级研究员Trapit Bansal,曾是o1模型重要开发者
专注于AIGC领域的专业社区报道Meta挖角OpenAI顶级研究员Trapit Bansal加入其新成立的AI超级智能部门。Bansal此前在OpenAI工作多年,并曾是o1模型的基础贡献者之一。