ICML 2025 Spotlight 谁导致了多智能体系统的失败?首个「自动化失败归因」研究出炉

本文介绍了一篇ICML 2025 Spotlight论文,提出自动化失败归因新任务以快速定位多智能体语言模型(LLM)系统的错误。研究构建首个Who&When数据集,并比较了三种方法:All-at-Once、Step-by-Step和Binary Search。实验结果显示当前方法效果有限,准确率较低;但混合策略有一定提升,且现有SOTA模型表现仍不理想。这表明失败归因任务对AI推理与理解能力要求极高。

Multi-Agent系统为何常“翻车”?伯克利指出其具有人类合作所有坏毛病!

MLNLP社区介绍并讨论了多智能体系统(LLM)的失败原因,指出当前系统存在规则崩坏、团队内耗和验收摆烂等问题,提出了未来可能的发展方向为更像特种部队协作。