人类秒懂,AI却懵圈:VLM²-Bench揭示视觉语言模型「视觉关联」能力短板

本文提出VLM²-Bench评测基准,旨在系统探究视觉语言模型在人类级基础视觉线索关联能力上的表现。通过全面考察通用线索、物体线索和人物线索三个大类的基础关联能力,共涵盖9个子任务及3060个测试案例。

AI无法攻克的235道谜题!让o1、Gemini 2.0 Flash Thinking集体挂零

新基准ENIGMAEVAL对高难度问题提出挑战,显示主流推理模型在面对复杂谜题时准确率极低。研究者使用原始多模态谜题进行评估,发现前沿语言模型即使在普通谜题中表现也仅7.0%,且难以解决困难谜题。

​MIT顶刊发布:续航提升100倍,特技飞行刷新极限的微型飞行器!

麻省理工学院的研究团队开发了一款仅重750毫克的四翼微型飞行器(MAV),实现了长达1000秒的持续悬停飞行,其特技动作如双重空翻的速度和精度远超传统机器人。这款飞行器在Science Robotics上发表,展示了仿生设计与工程创新的结合,未来有望应用于授粉、侦察等领域。