量子位，作者每时AI

AI越聪明越不听话！新研究：最强推理模型指令遵循率仅50%

下午4时 2025/05/24 作者量子位

研究揭示大模型越擅长数学推理反而越难完全遵守用户指令，提出了MathIF基准来衡量AI的指令遵循能力。

下午4时 2025/05/24 作者量子位

研究提出Soft Thinking方法，让模型在连续的概念空间中进行“软推理”，打破基于离散token的推理瓶颈。相比标准CoT，最高提升Pass@1平均准确率2.48%，减少token使用量22.4%。

下午4时 2025/05/24 作者量子位

OpenAI与强纳肾合作开发的AI可穿戴设备，外形类似iPod Shuffle，具备摄像头和麦克风功能，有望于2027年投入量产。但网友对此褒贬不一，有人认为挂脖设计可以更接近眼睛获取视角，也有人担心其沉重的设计可能被视为‘电子镣铐’。

下午4时 2025/05/24 作者量子位

微软员工尝试使用Copilot修复代码中的Bug时遭遇失败，引起了程序员们的围观和嘲笑。AI智能体的建议经常导致错误，并且不能有效解决问题。

下午4时 2025/05/24 作者量子位

字节跳动最新发布BAGEL模型，融合图像理解、生成、编辑等多种功能，参数规模只有7B，但表现超越或媲美众多顶级开源和闭源模型。通过MoT架构实现统一多模态能力，并在Hugging Face上架开源。

下午11时 2025/05/23 作者量子位

作为衡量AI专业能力最具代表性的任务之一。
目前，AI虽然在棋力、效率、通用性等方面均取得显著成绩，

下午4时 2025/05/23 作者量子位

Salesforce团队开源的Elastic Reasoning和Fractured Sampling两种方案提升了推理效率，前者通过将思考部分和解题部分分开管理预算，后者则采用三维碎片化采样策略。这两种方法在数学和编程任务上提高了准确率，在推理预算紧张时依然表现优秀。

下午4时 2025/05/23 作者量子位

灵宝CASBOT团队提出的DTRT方法在ICRA 2025录用，通过结合人类引导的运动和力数据来估计人类意图并分配角色，在物理人机协作中的预测精度显著优于现有技术。

下午4时 2025/05/23 作者量子位

标准了！
来自香港科技大学、腾讯西雅图AI Lab、爱丁堡大学、Miniml.AI、英伟达的研究者联

下午4时 2025/05/23 作者量子位

第七届北京智源大会将于2025年6月6日至7日在中关村国家自主创新示范区展示中心举行，汇聚全球顶尖研究者分享最新成果。大会将围绕人工智能四大主题展开，包括基础理论、应用探索、产业创新和可持续发展等，设有近20场专题论坛。