强化学习
仅用图像也能Think:Google等提出一种视觉规划的全新推理范式!
剑桥&Google提出视觉规划新范式Visual Planning,通过纯视觉表示进行规划,独立于文本。VPRL框架结合强化学习和GRPO技术优化视觉模型生成有效视觉轨迹。
智能体大爆发,2025全面拥抱AI Agent
2025年,Agent成为主流的关键转折点。它能感知环境、分析目标并自主决策,与工具相比更像一个’数字助理’。开发者需升级认知,重构技能,理解Agent的核心技术原理。推荐课程帮助快速上手Agent开发方法论。
刷新世界记录!40B模型+20万亿token,散户组团挑战算力霸权
在区块链技术的支持下,Nous Research的Psyche平台成功实现了去中心化的分布式训练。通过DisTrO优化器和Solana区块链协议,Psyche能够在保持高度同步的同时降低带宽需求,并验证了容错能力和加速训练的能力。这不仅展示了区块链作为解决计算资源分配和协调问题的有效工具,也为未来大规模、去中心化机器学习模型的部署铺平了道路。
Qlib:可能是目前业内最完整的 AI 量化投资平台
微软开源项目Qlib,覆盖因子挖掘、风险建模等AI量化投资流程,支持Transformer、LSTM等多种模型,提供一键自动化研究工具,适合金融AI开发者学习。
UC Berkeley最新VideoMimic的框架:基于视觉模仿学习的类人机器人跨环境控制策略生成方法
近日UC Berkeley大学研究人员提出VideoMimic框架,通过观看普通视频自动生成类人机器人的控制策略。无需复杂传感器数据或手工奖励函数,机器人能在多种环境下执行任务。
312条轨迹激发241%性能!上交大与SII开源电脑智能体,超越 Claude 3.7
上海交通大学和SII的研究表明,仅需312条人类标注轨迹,并通过合成更多动作决策的思维链补全与轨迹增强技术,就能显著提升电脑智能体(Operator)性能。这一方法使得模型性能提升了241%,超越了基础模型Claude 3.7 Sonnet extended thinking模式,成为Windows系统上开源电脑智能体的新一代SOTA。