DeepSeek-R1、o1都低于10%,人类给AI的「最后考试」来了,贡献者名单长达两页

文章介绍了一个名为”人类的最后考试”(HLE)的新AI基准,旨在评估大规模语言模型的能力。该基准包含3000多个问题,涉及上百个学科领域,要求模型不仅给出正确答案,还需提供合理的推理过程。目前最先进的SOTA模型在HLE上的准确率仍低于10%。

从扭秧歌到单脚跳,HugWBC让人形机器人运动天赋觉醒了

AIxiv专栏介绍及其新成果HugWBC控制器,支持机器人同时掌握多种步态及精细调整行为指令,提高运动控制能力。该研究成果在模拟环境中训练,并通过评估验证其有效性。