GPT还是DeepSeek?不如全都要!南洋理工、IDEA等提出首个多智能体系统LLM Routing框架

独木不成林,随着基于大型语言模型(LLM)的智能体(agents)的发展,人们愈发意识到单个 LLM 和 Agent 的局限性。受到人类团队分工协作的启发,将多个 LLM 驱动的智能体组合成一个团队,能够更有效地解决复杂问题。然而,使用多智能体系统进行推理时,你是否遇到过这样的问题:

  • 模型选择困难症,大模型“杀鸡用牛刀”,小模型效果一言难尽?

  • 针对各类问题设计智能体协作模式和角色分工而绞尽脑汁?

  • 想动态调配 LLM 资源,却不知如何平衡性能与成本?

别担心!多智能体界的“调度员”来了!由 IDEA 联手同济大学、武汉大学、南洋理工大学团队提出的 MasRouter,首次将协作模式选择角色分配大语言模型调度整合成智能路由框架,为每个任务定制最佳智能体团队!

相关论文

论文标题:
MasRouter: Learning to Route LLMs for Multi-Agent Systems

论文链接:

https://arxiv.org/abs/2502.11133

代码链接:

https://github.com/yanweiyue/masrouter

背景介绍

考虑这样的两个编程问题:
  • 编写 python 代码统计字符串的长度

  • 从后端数据库到前端网页全面实现一个视频网站

很显然,上面两个任务的复杂度天差地别,前者只需要一个最简单的 LLM 便能很好解决,使用大且复杂的模型会造成不必要的开销;而后者则需要最先进的模型和复杂的多智能体分工、检查和迭代优化。
类似的情况在生活中经常出现,大模型多如牛毛,推理方法更是浩如烟海,如何选择合适的 LLM、协作模式以平衡效果和开销,是一个巨大的挑战。
近年来,在单智能体领域,已经有许多有效的 LLM routing 方案为不同问题动态选择 LLM。然而,单智能体能力有限,当我们希望用多智能体系统解决复杂问题时,依然会陷入选择困难症。

传统的 LLM 路由方法主要针对单智能体场景,无法应对多智能体系统中的新问题:1)如何确定多智能体协作模式;2)如何为不同的智能体分配个性化角色;3)如何为不同智能体分配合适的 LLM,实现异构多智能体系统推理。

▲ 单智能体和多智能体路由的流程对比

为解决这些挑战,本文首先明确定义了 Multi-agent routing 任务,随后提出了第一个多智能体系统路由框架——MasRouter,为每个任务定制最佳智能体团队,让 GPT 和 Deepseek 在多智能体系统中并肩作战!

多智能体系统路由

▲ MASR 的定义

本文中,我们首先明确定义了多智能体系统路由问题。多智能体系统路由(MASR)的本质是一个函数映射,将每个查询映射到最合适的 LLM、协作模式和角色分配,以构建一个高效且经济的多智能体系统。其中协作/推理模式是骨架,确定了多智能体系统推理的基本流程;而角色分工是器官,决定了每个智能体的具体任务和职责;LLM 调度则是血液,为每个智能体提供动力。

理想的 MASR 方法将为每个查询定制最佳的协作模式、角色分工和 LLM,各司其职各得其所,使得整个系统能够给出正确且经济的解答。拒绝“杀鸡用牛刀”,也拒绝“以卵击石”。

MasRouter

提出多智能体系统路由(MASR)任务后,我们设计了第一个 MASR 框架——MasRouter,该框架实现了协作模式选择、角色分配和 LLM 调度的一体化。MasRouter 的核心是一个三阶段的多智能体系统路由器,包括协作模式决断器 、角色分配器 和 LLM 调度器 ,通过三个模块能得到生成某问题正确答案的概率:

方法的整体流程如下图所示:

▲ MasRouter 算法框架

4.1 协作模式选择
MasRouter 首先根据任务的复杂性和领域,选择合适的协作模式。例如,对于软件开发任务,可能需要一个包含需求分析、算法设计、代码开发和测试的层次化工作流;对于某个复杂的数学问题,可能需要多轮检查反思工作流。由于协作模式和查询之间的关系通常很难明确表征,MasRouter 使用变分潜在变量模型来捕捉查询与协作模式之间的语义关联,从而选择最合适的协作模式:
其中 表示查询的潜在表征的先验概率,该概率服从由查询语义决定的正态分布; 表示解码生成某协作模式的概率,由查询语句和协作模式的匹配度计算得到:

是一个文本编码器,用于提取查询的语义信息。
将查询和协作模式之间的关系嵌入到潜在空间中。

4.2 角色分配

确定了协作模式后,我们已经得到了多智能体协作系统的骨干,下面在骨干的基础上填上器官和肌肉,即为每个智能体分配合适的角色。多智能体之间的角色通常需要按一定的顺序排布,且相互依赖。

例如,我们首先需要一个程序员来编写代码,随后才需要一个测试工程师来验证和调试代码。相应地, 通过结构化的概率级联来形式化角色生成过程:
其中, 表示生成第 个角色的概率,该概率基于查询 、选定的 以及先前的 个角色配置文件。我们通过以下方式迭代计算:
这里 表示在查询 和选定的 下,通过前 个角色分配过程累积的隐式语义表示。 捕捉了当前候选角色在先前分配角色的背景下所表现出的动态特征。至此,我们逐步为所有智能体确定了角色分工,剩下的任务是为每个智能体选择适当的 LLM 提供其驱动力。

4.3 大语言模型调度

每个 LLM 都有优缺点,而 LLM 调度便是希望物尽其用,人尽其才,充分利用它们各自的能力。例如,对于数学问题,我们希望选择特别擅长数学的 LLM,或者一个经过数学领域微调的 LLM。

因此,我们认为 LLM 分配主要取决于任务的领域和难度,以及智能体对应的角色。我们基于问题、先前协作模式和角色的选择来确定 的选择概率 。然后将多个智能体的 LLM 选择过程视为一个多项式分布问题:
其中, 是多项式系数,表示将 个不同 LLM 分配给 k 个智能体的方法数,其中第 i 个 LLM 被选择了 次。 表示在全局上下文中每个 LLM 被选择的概率:

其中, 聚合了查询、协作模式和选定角色的嵌入表示

算每个 LLM 的潜在表示。基于 ,可以获得每个 LLM 与构建系统之间的兼容性,该兼容性与选择 的概率成正比。

4.4 优化目标

MasRouter 的优化目标如下:
其中, 表示多代理系统的成本评估, 是权衡参数, 在前面几节中由三阶段的多智能体系统路由器计算得到。通过这个优化目标,我们最大化生成正确解决方案的概率并最小化成本消耗来平衡有效性和效率。然后,按照多代理结构设计中的标准方法,我们应用策略梯度来逼近和优化该目标。
以上,我们构建了一个综合协作模式选择、角色分配和 LLM 调度的多智能体路由方法。不同的 LLM、协作模式和角色分工将在不同的任务中发挥作用,MasRouter 将为每个任务定制最佳智能体团队,gpt 和 deepseek 在多智能体系统中并肩作战将成为现实!

实验分析
MasRouter 与其它单智能体方法(如 CoT、ComplexCoT 等),多智能体方法(如 GPTSwarm、AFlow 等)以及单智能体 Routing 方法(如)在五个基准数据集上进行了测评,结果如下图所示:

▲ MasRouter 的实验评估

我们可以发现各种 LLM 在不同任务上互有优劣,而 MasRouter 能够根据任务的复杂性和领域选择合适的 LLM,从而在各类 benchmark 上取得了最佳性能,超越了之前的 SOTA 多智能体方法和传统 Routing 方法。

如下图所示,MasRouter 在 MBPP 数据集上实现了成本效益的 Pareto 前沿最佳性能。与 AFlow 相比,MasRouter 不仅在性能上提升了 1.8%∼8.0%,在智能体数量相同的情况下还减少了 40.22%∼43.78% 的推理开销。

▲ 帕累托图

此外,我们通过实验证明了 MasRouter 可以作为其他多智能体方法的无缝插件,为多智能体系统提供更加灵活、高效的推理能力。

我们还对 MasRouter 在不同 benchmark 上所设计出来的协作结构进行了可视化。可以观察到,由 MasRouter 生成的多智能体拓扑高度依赖于具体任务的上下文及其难度。相比之下,在更复杂的案例中,MasRouter 构建了更为复杂的通信图。

▲ 案例分析

结语
本文第一次提出了多智能体系统路由(MASR)的概念,并给出了一个简单可行的 MASR 解决方案 MasRouter。我们希望无论是代码生成、数学推理还是其他复杂任务,MasRouter 都能为你提供高效且经济的解决方案;我们更希望能有研究者们能给出更多更好的 MASR 解决方案,让多智能体系统的推理更加高效、灵活!


(文:PaperWeekly)

欢迎分享

发表评论