多模态模型具备“物理推理能力”了吗?新基准揭示:表现最好的GPT-o4 mini也远不及人类!
香港大学和密歇根大学的研究人员发布首个专门面向多模态大模型物理推理能力的大规模基准测试PhyX,评估结果表明表现最好的GPT-o4 mini准确率仅为45.8%,远不及人类水平。
香港大学和密歇根大学的研究人员发布首个专门面向多模态大模型物理推理能力的大规模基准测试PhyX,评估结果表明表现最好的GPT-o4 mini准确率仅为45.8%,远不及人类水平。
本文介绍了一种名为 DanceGRPO 的强化学习框架,在视觉生成任务中实现了统一优化。该方法通过 GRPO 策略在 Diffusion 和 Rectified Flow 模型上进行了测试,并覆盖了文本到图像、视频等多种任务,展示了其在不同基础模型上的有效性及对多种奖励模型的适应性。
一款完全自动化、零代码的 LLM 智能体框架 AutoAgent 由香港大学 HKUDS 团队开发并开源,目标是让 AI 开发无门槛。它支持三种使用模式和两种交互模式,内置向量数据库强化 AI 记忆能力。适用于智能搜索、数据分析、信息处理等场景,用户只需用日常语言描述需求即可生成智能助手。
香港大学和VAST研究团队提出DRK,一种新型的三维场景表示方法,通过创新的核函数设计解决三维高斯在形状灵活性、边界控制和渲染排序方面的不足。
在3D场景重建与表示领域,三维高斯由于其内在的核表示缺乏灵活度,在形状灵活性、边界控制以及排序方式上存在挑战。研究团队提出了一种创新的核函数——Deformable Radial Kernel Splatting (DRK),用于三维场景表示,能够使用更少的核数量实现高质量渲染,并具备不同的参数调整其形状、曲率和锐化度等特性。
香港大学、英伟达和图宾根大学联合提出Centaur方法,通过在线数据驱动动态调整模型权重,提高自动驾驶汽车在不确定性场景中的适应性和安全性。论文已上传至arXiv,代码和checkpoint即将开源。
论文提出的新模型ObjectMover结合视频扩散模型和虚幻引擎合成数据,实现了图像中物体的真实感移动。它不仅能处理物体的插入、删除和移动任务,还能有效保持物体的身份特征及光照效果。