AI仅凭“自信”学会推理,浙大校友复刻DeepSeek长思维链涌现,强化学习无需外部奖励信号

UC Berkeley团队提出的新方法Intuitor通过优化模型自身的置信程度来提升大模型的复杂推理能力,无需外部奖励信号或标准答案。与传统强化学习相比,Intuitor能有效减少无效响应并提高模型在数学和代码生成任务中的表现。

UC Berkeley最新VideoMimic的框架:基于视觉模仿学习的类人机器人跨环境控制策略生成方法

近日UC Berkeley大学研究人员提出VideoMimic框架,通过观看普通视频自动生成类人机器人的控制策略。无需复杂传感器数据或手工奖励函数,机器人能在多种环境下执行任务。

仅看视频就能copy人类动作,宇树G1分分钟掌握100+,UC伯克利提出机器人训练新方式

UC伯克利团队研发的新系统VideoMimic能够通过视频训练机器人模仿人类动作,已成功让宇树G1机器人学会多种复杂动作。系统利用深度相机和IMU等传感器获取环境信息及机器人姿态,并将这些数据作为策略模型的输入进行实时推理控制。

迈向机器人领域ImageNet,大牛Pieter Abbeel领衔国内外高校共建RoboVerse,统一仿真平台、数据集和基准

RoboVerse 提出一个统一平台、数据集与评测体系,解决机器人仿真碎片化问题。MetaSim 解决跨仿真器兼容性;大规模合成数据集与标准化评测系统提升性能评估;混合仿真增强真实性;Real2Sim 支持从现实到仿真的资产重建;AI-Generate Tasks 创造新任务;支持 GPU 并行训练加速研究。

谷歌再次称霸!出自伯克利等华人学生项目,竟成世界170+模型竞技场

Chatbot Arena已成为全球最受瞩目的AI系统评测平台,吸引超过170个模型参赛。最新版本的Gemini发布并取得佳绩,引发科技巨头和初创公司争夺榜首。项目采用用户评分的方式进行对比,受到广泛关注。

视觉语言模型能否实现鲁棒的数学推理?UC伯克利发布测评基准DynaMath

本文介绍了一项新的动态生成的测评基准DynaMath,用于评估和研究视觉语言模型在处理多模态数学问题时的推理能力。通过分析当前最强的一些视觉语言模型(如GPT-4o)在简单数学题上的表现,发现它们存在漏洞和鲁棒性不足的问题。DynaMath提供了501个高质量、多主题的种子问题及其变体,评估了14个最先进的视觉语言模型的表现,揭示了其推理稳健性的局限性。