不用人类教,AI自己组队干活?Salesforce黑科技彻底颠覆智能体协作!

在人工智能领域,多智能体系统(MAS)作为一种强大的工具,能够通过多个智能体的协作解决复杂问题。然而,传统的MAS设计依赖于人工设计智能体角色和通信协议,这不仅效率低下,还难以适应新任务Salesforce最新推出的MAS-Zero框架,以其零监督的自动设计能力,为这一领域带来了突破性的进展。

一、项目概述

MAS-ZeroSalesforce推出的一个创新的多智能体系统(MAS)设计框架,能够在无需人类监督的情况下自动设计和优化MAS它基于元级设计,在推理时动态生成、评估和改进MAS配置,通过自验证机制从候选解决方案中选择最优结果。这一框架在数学推理、高级问答和代码生成等多个领域表现出色,且完全不依赖外部监督信号,展现了强大的自进化能力和灵活性。

二、技术原理

(一)元迭代(Meta-Iterations

  • 1. 任务分解与MAS生成:MAS-Zero将复杂问题分解为多个子任务,并为每个子任务生成对应的MAS实现。它将MAS设计视为代码生成问题,通过元代理动态调整任务分解和MAS配置。

  • 2. 元级反馈:评估生成的MAS设计的可解性和完整性,基于中间输出判断当前MAS是否能有效解决问题,并生成反馈指导后续迭代改进。

(二)自验证(Self-Verification

在多次元迭代后,从所有候选解决方案中选择最合适的结果,通过对比不同迭代产生的答案,结合验证策略确定最终输出。

(三)基于LLM的元代理

MAS-Zero使用大型语言模型(LLM)作为元代理,负责任务分解、生成MAS代码、反馈生成及结果验证。元代理在推理过程中不断学习和进化,逐步优化MAS设计。

(四)自我监督学习

整个过程不依赖外部验证集或人类监督,仅通过系统自身的执行结果和反馈信号进行自我监督学习,从而提高系统的性能和适应性


三、主要功能

(一)自动设计多智能体系统(MAS

MAS-Zero无需人类手动设计智能体角色和通信协议,能够根据具体问题自动生成适合的MAS结构,显著提高系统对新任务的适应性和性能。

(二)动态适应问题

在推理阶段,针对每个问题实例进行动态的智能体组合和问题分解,使MAS更好地应对复杂多变的任务。

(三)无需验证集监督

不依赖于预先标注的验证集调整和优化MAS配置,降低了对数据的需求,提高了系统的灵活性和实用性。

(四)性能优化

基于元级设计和自验证机制,不断迭代改进MAS设计,提升系统在复杂任务上的准确率和效率,同时保持成本效益。

(五)自进化能力

在推理过程中,基于自我反馈和评估自动学习和进化,逐步优化MAS的设计和性能,无需外部监督信号。


四、性能表现

MAS-Zero在多个基准测试中表现出色,包括数学推理(AIME24)、研究生水平问答(GPQA)和代码生成(SWE-Bench)。它在这些领域中均优于手动设计的MAS和现有的自动MAS方法,平均准确率提升了7.44%

MAS-Zero在性能和成本之间达到了新的平衡。它在保持高性能的同时,显著降低了成本,成为当前最有效的自动MAS设计方法之一。


五、应用场景

(一)复杂问题求解

在数学、科学计算等领域,将复杂问题分解为多个子任务,提高求解效率和准确性

(二)自然语言处理

用于高级问答系统和文本生成编辑,生成高质量的自然语言处理结果

(三)软件工程

在代码生成、优化和软件测试中,将任务分解为多个子任务,提高软件开发和测试的效率与质量。

(四)医疗健康

应用于疾病诊断和治疗方案制定,提高医疗决策的准确性和个性化水平。

(五)教育领域

用于个性化学习和智能辅导,根据学生需求分解学习任务,提供定制化的学习路径和辅导内容,提升学习效果。


六、快速使用

(一)环境搭建

1. 创建并激活Python环境:

conda create -n mas_zero python=3.12 && conda activate mas_zero

2. 安装必要的Python包:

pip install anthropic openai backoff togetherpip install -r requirements.txtpip install datasets jinja2pip install -e human-eval


(二)运行MAS-Zero

1. 配置API密钥:

export OPENAI_API_KEY={YourKey}export TOGETHER_API_KEY={YourKey}

2. 执行搜索任务:

python main_question.py --dataset workflow_search/aime24 --option plan --meta_model gpt-4o_chatgpt --node_model gpt-4o_chatgpt --verifier_model gpt-4o_chatgpt --blocks COT COT_SC Reflexion LLM_debate --use_oracle_verifier --defer_verifier --n_generation 5

3. 执行验证任务:

python main_judge.py --dataset aime24 --judge_method self --baseline workflow_search --model gpt-4o_chatgpt --min_sample 0 --max_sample 30 --max_response_per_sample 9


七、结语

MAS-Zero作为Salesforce推出的多智能体系统设计框架,以其零监督的自动设计能力和强大的自进化能力,为复杂任务的解决提供了全新的思路。它不仅在多个领域表现出色,还通过动态适应和自验证机制,显著提高了系统的灵活性和性能。随着技术的不断发展,MAS-Zero有望在更多领域发挥重要作用。


八、项目资料

项目官网:https://mas-design.github.io/

GitHub仓库:https://github.com/SalesforceAIResearch/MAS-Zero

arXiv技术论文:https://arxiv.org/pdf/2505.14996


💘 

(文:小兵的AI视界)

发表评论