支持5000+ Server，ScaleMCP为大模型Agents动态同步MCP工具

模型上下文协议（MCP）极大地提升了LLM Agents与外部工具和API动态交互的能力。现有的工具选择框架并未整合MCP服务器，而是严重依赖容易出错的手动更新，来维护本地的单体工具库，这导致了重复、不一致和低效的问题。此外，当前的方法在调用LLM代理之前就对工具选择进行了抽象化，限制了代理的自主性，并阻碍了在多轮交互过程中动态重新查询的能力。

为了解决这些问题，普华永道提出了ScaleMCP，这是一种新颖的工具选择方法，动态地为LLM代理配备了一个MCP工具检索器，赋予代理自主地将工具添加到其记忆中的能力，同时还通过与MCP服务器（作为唯一真实来源）进行CRUD（创建、读取、更新、删除）操作，实现了一个自动同步的工具存储系统管道。

还提出了一种新的嵌入策略——工具文档加权平均（TDWA），旨在在嵌入过程中选择性地强调工具文档的关键部分（例如工具名称或合成问题）。

数据集构建

工具创建：基于《财富》1000强公司，为每家公司生成了5个确定性的工具，涉及股票价格、分析师目标价、收入和净收入等财务指标。
工具文档合成问题：为每个工具模板生成了0、5或10个合成问题，以丰富工具文档的语义表示。
用户查询实例生成：创建了约140,000个用户查询实例，覆盖了广泛的财务任务和公司。

实验1：MCP向量数据库检索

设置：在5,000个MCP服务器的数据集上评估了5种嵌入模型和5种检索器类型，使用简单拼接策略存储工具表示。
结果：单纯向量检索表现不佳，而使用Cohere的跨编码器重排序器和LLM重排序器（如GPT-4o和Claude Sonnet 3.7）显著提升了性能。在VertexAI嵌入模型和GPT-4o重排序器下，Recall@10达到0.94，MAP@10达到0.59。

实验2：LLM代理评估

设置：使用DeepEval框架评估了10种LLM代理在检索和工具调用任务上的端到端性能。
结果：gpt-o3在使用向量搜索和Cohere重排序器时，Task Completion Score达到94.4%，但Tool Correctness仅为36.1%。gpt-4o-mini在相同配置下平衡了Tool Correctness（54.0%）和Task Completion Score（86.7%）。

实验3：TDWA权重评估

设置：比较了简单拼接（Concat）和两种TDWA变体（var-1和var-2）在不同检索策略下的性能。
结果：在纯向量搜索中，Concat策略表现优于TDWA，但在重排序后，TDWA var-2在某些重排序指标上优于Concat，表明TDWA在语义相关性方面具有优势。

ScaleMCP通过自动同步工具存储系统和TDWA嵌入策略，显著提升了LLM代理在工具选择和调用方面的性能。
在复杂多跳查询中，LLM代理需要更灵活的检索和推理能力，ScaleMCP框架通过引入动态检索工具，为代理提供了更好的工具管理能力。
TDWA策略在重排序阶段表现出色，尤其是在与LLM重排序器结合时，能够更好地捕捉工具文档的语义信息。

更多信息：《动手设计AI Agents：CrewAI版》、《高级RAG之36技》、新技术实战：中文Lazy-GraphRAG/Manus+MCP/GRPO+Agent、大模型日报/月报、最新技术热点追踪解读（GPT4-o/数字人/MCP/Gemini 2.5 Pro）

https://arxiv.org/pdf/2505.06416SCALEMCP: DYNAMIC AND AUTO-SYNCHRONIZING MODEL CONTEXT PROTOCOL TOOLS FOR LLM AGENTS

（文：PaperAgent）

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

数据集构建

实验1：MCP向量数据库检索

实验2：LLM代理评估

实验3：TDWA权重评估

发表评论 取消回复

发表评论取消回复