ICLR 2025 真正「Deep」的「Research」,通过强化学习实现可自主进化的科研智能体来了!
CycleResearcher 研究团队发布了首个通过强化学习迭代优化训练的 AI 科研智能体,实现了文献检索、模型提问、论文撰写等完整闭环。团队开源了数据集和代码,展示了其在学术研究中的潜力。
CycleResearcher 研究团队发布了首个通过强化学习迭代优化训练的 AI 科研智能体,实现了文献检索、模型提问、论文撰写等完整闭环。团队开源了数据集和代码,展示了其在学术研究中的潜力。
MLNLP社区致力于促进机器学习与自然语言处理领域的学术交流与进步。文章介绍了如何解决大型推理模型(LRMs)带来的冗余思考问题,包括字数预算、双系统切换、模型路由等方法,并探讨了未来高效推理的发展方向。
魔法原子举办「原子双生」2025场景战略发布会,推出人形机器人和四足机器人,并宣布量产计划及落地应用场景。预计今年将有400台人形机器人进入工业、商业场景。人形机器人小麦在商场不同场景展示多样化工作岗位,并展示了与追觅科技合作的具身智能大模型原子万象。
人形机器人独角兽Figure展示了利用强化学习实现的自然人形行走技术,机器人步态更像人、速度更快,并且在不同场景下均表现出优异性能。
阿里云千问团队发布了Qwen2.5-VL-32B-Instruct模型。该模型在多个方面实现了重要突破:优化了模型规模、提升了性能,并在视觉理解和数学推理等方面取得了显著进步。
谷歌最新发布的Gemini 2.5 Pro模型在推理和代码能力上表现优异,横扫多个基准测试排行榜榜首,并且实现了显著的性能提升。
答案的情况,比如以下例子:
根据视频中本车的动作,它接下来最有可能立即采取的行动是什么?
A:右转,