DeepSeek 发布DeepSeek R1-0528
DeepSeek发布R1-0528,显著提升代码生成能力,推理速度和质量提高,性能接近OpenAI的o3等前沿模型,在数学、编程和复杂任务上表现出色。
DeepSeek发布R1-0528,显著提升代码生成能力,推理速度和质量提高,性能接近OpenAI的o3等前沿模型,在数学、编程和复杂任务上表现出色。
UC Berkeley团队提出的新方法Intuitor通过优化模型自身的置信程度来提升大模型的复杂推理能力,无需外部奖励信号或标准答案。与传统强化学习相比,Intuitor能有效减少无效响应并提高模型在数学和代码生成任务中的表现。
近日UC Berkeley大学研究人员提出VideoMimic框架,通过观看普通视频自动生成类人机器人的控制策略。无需复杂传感器数据或手工奖励函数,机器人能在多种环境下执行任务。
UC伯克利团队研发的新系统VideoMimic能够通过视频训练机器人模仿人类动作,已成功让宇树G1机器人学会多种复杂动作。系统利用深度相机和IMU等传感器获取环境信息及机器人姿态,并将这些数据作为策略模型的输入进行实时推理控制。
RoboVerse 提出一个统一平台、数据集与评测体系,解决机器人仿真碎片化问题。MetaSim 解决跨仿真器兼容性;大规模合成数据集与标准化评测系统提升性能评估;混合仿真增强真实性;Real2Sim 支持从现实到仿真的资产重建;AI-Generate Tasks 创造新任务;支持 GPU 并行训练加速研究。
Chatbot Arena已成为全球最受瞩目的AI系统评测平台,吸引超过170个模型参赛。最新版本的Gemini发布并取得佳绩,引发科技巨头和初创公司争夺榜首。项目采用用户评分的方式进行对比,受到广泛关注。
本文介绍了一项新的动态生成的测评基准DynaMath,用于评估和研究视觉语言模型在处理多模态数学问题时的推理能力。通过分析当前最强的一些视觉语言模型(如GPT-4o)在简单数学题上的表现,发现它们存在漏洞和鲁棒性不足的问题。DynaMath提供了501个高质量、多主题的种子问题及其变体,评估了14个最先进的视觉语言模型的表现,揭示了其推理稳健性的局限性。