在大语言模型(LLM)迅猛发展的今天,单一模型已难以满足复杂任务的需求。为此,研究者们提出了多智能体系统(Multi-Agent Systems, MAS)这一概念,通过多个智能体的协作,突破单体模型的局限。
近期,Khanh-Tung Tran 等人发布了一篇35页的综述论文《Multi-Agent Collaboration Mechanisms: A Survey of LLMs》,系统地探讨了LLM驱动的多智能体协作机制,为构建高效、可扩展的AI系统提供了理论与实践指南。

🧠 Step 1:构建智能体大脑
每个智能体由五个核心组成部分构成:
-
模型(m):智能体的核心计算单元
-
目标(o):智能体需达成的任务目标
-
环境(e):智能体所处的外部环境
-
输入感知(x):智能体对环境的感知输入
-
输出动作(y):智能体基于模型、目标、环境和输入的输出行为,即 y = m(o, e, x)
此外,智能体还可配备计算器、网络访问、记忆模块等工具,以增强其能力。
👥 Step 2:组建智能体团队
多智能体系统不仅仅是多个智能体的集合,更是一个有组织的协作系统。其关键要素包括:
-
共享目标(O_collab):所有智能体共同追求的目标
-
环境(E):智能体所处的共同环境
-
协作通道(C):智能体之间进行交流、计划、辩论和行动的通道
系统的输出行为可表示为:y_collab = S(O_collab, E, x_collab | A, C),其中A代表智能体集合,C代表协作通道。
🔄 Step 3:选择协作类型
智能体之间的协作方式主要包括:
-
合作(Cooperation):智能体共同努力,达成共享目标
-
竞争(Competition):智能体之间进行辩论、批评或挑战
-
竞合(Coopetition):在某些任务上合作,在其他任务上竞争
🧩 Step 4:制定协作策略
智能体的协作策略可以是:
-
基于规则(Rule-based):如多数投票等严格逻辑
-
基于角色(Role-based):预定义的角色,如编码者、规划者、审阅者
-
基于模型(Model-based):如预测他人思维的概率规划(理论心智)
🌐 Step 5:设计通信拓扑结构
智能体之间的通信结构包括:
-
集中式(Centralized):一个中心节点协调所有智能体
-
分散式(Decentralized):智能体之间进行点对点通信
-
层级式(Hierarchical):具有控制和委派层级的结构
🎼 Step 6:协调智能体协作
智能体的协调逻辑可以是:
-
静态(Static):固定的通道和角色
-
动态(Dynamic):智能体根据任务和上下文进行演变
🌍 实际应用场景
多智能体系统在多个领域展现出巨大潜力:
-
问答与推理:通过辩论框架如MAD或FORD,提高答案质量
-
软件开发:工具如ChatDev或MetaGPT模拟真实敏捷团队
-
科学与文化:模拟社会行为,生成跨文化见解
-
物联网与5G:协调边缘设备,实现低延迟AI
📚 完整论文《Multi-Agent Collaboration Mechanisms: A Survey of LLMs》可在 arXiv 获取。
https://arxiv.org/pdf/2501.06322
(文:PyTorch研习社)