越用越聪明or越学越崩？首个终身学习Agent基准来了，全面评估智能体进化潜能

在大模型智能体如火如荼的发展中，一个关键但仍被忽视的问题是——它们是否具备终身学习的能力？也就是说，在面对环境中的持续新任务与知识时，是否能够有效学习、适应、保留过去经验、并防止遗忘？

本文介绍了一项专为评估此类能力而设计的新基准：LifelongAgentBench，系统地检验当前大模型智能体在终身学习中的表现。

论文标题：

LifelongAgentBench: Evaluating LLM Agents as Lifelong Learners

论文地址：

https://arxiv.org/abs/2505.11942

论文仓库：

https://github.com/caixd-220529/LifelongAgentBench

终身学习对于在动态环境中运行的智能体至关重要。然而，当前基于 LLM 的智能体仍处于无状态，无法随时间积累或迁移知识。现有基准将智能体视为静态系统，未能评估终身学习能力。

我们提出 LifelongAgentBench，这是首个旨在系统评估 LLM 智能体终身学习能力的统一基准。它在数据库、操作系统和知识图谱这三个交互式环境中提供了基于技能且相互依赖的任务，并具备自动标签验证、可重复性和模块化可扩展性。

大量实验表明，由于存在无关信息和上下文长度限制，传统的经验回放对 LLM 智能体的效果有限。我们进一步引入了群体自一致性机制，该机制显著提升了终身学习性能。我们希望 LifelongAgentBench 能够推动具有适应性和记忆能力的 LLM智能体的发展。

大模型 Agent 为何需要终身学习

大型语言模型的迅速发展给基于语言的人工智能带来了革命性的变化，在众多自然语言处理任务中都取得了最先进的性能。

最近，研究已从静态模型转向基于 LLM 的智能体，这些智能体旨在与动态环境互动、执行复杂决策并通过经验不断提升。这些智能体将预训练 LLM 的语言理解和生成能力与自主行动选择和交互策略相结合。

然而，一个关键限制仍然存在：如今基于 LLM 的智能体从根本上缺乏记忆以及随时间逐步积累知识的能力。它们以无状态的方式运行，将每个任务视为独立的，没有记住、适应或迁移过往经验的能力。

实现通用人工智能需要智能体能够在不同环境和长时间范围内持续获取、保留和重复利用知识。这种终身学习能力被广泛认为是人类水平智能的基石，但在当前的智能体研究中基本未得到解决。

现有的 LLM 智能体基准是在静态智能体范式下设计的。它们聚焦于孤立的任务，忽略了任务间的依赖关系、技能重用以及知识保留和灾难性遗忘的现实挑战。

更关键的是，目前还没有用于系统评估 LLM 智能体终身学习能力的标准化基准。这一缺失严重限制了开发具有终身适应和记忆能力的智能体的进展。此外，由于先前基准存在标签不准确、缺乏可验证性和重现性差等问题，实际应用也受到了阻碍。

▲ 图1，LifelongAgentBench总体框架概览

为了填补这些关键空白，我们提出了 LifelongAgentBench，这是首个专门设计用于评估基于 LLM 的智能体在现实和多样化交互环境中的终身学习能力的统一基准（图1）。

LifelongAgentBench 系统地测试智能体获取原子技能、在任务间迁移技能以及在长序列依赖任务中保持稳定性能的能力。它包含三个任务丰富的环境 —— 数据库（DB）、操作系统（OS）和知识图谱（KG），以模拟需要持续学习的复杂、不断变化的场景。

LifelongAgentBench 提供了四项关键创新，使其有别于现有的 LLM 智能体基准：

任务依赖性：任务基于技能，并且经过明确设计以量化任务间的相关性，从而能够对知识迁移和灾难性遗忘进行严格分析。
标签可验证性：每个环境都包含自动标签验证（例如，SQL 查询验证、OS 状态哈希、SPARQL 输出验证），以确保评估的客观性和可重复性。
可重复性：该基准提供了完全容器化的基础设施和模块化设计，研究人员可以轻松重现实验并扩展框架。
模块化：该平台提供了可扩展的回调函数和可插拔的 LLM 智能体接口，支持开源和商业模型，如 LLaMA、DeepSeek、Qwen和 GPT-4。LifelongAgentBench 与先前基准的详细比较见表 1。

▲ 表1. LifelongAgentBench与已有基准的对比

我们使用 LifelongAgentBench 进行了大量实验，得出了几个关键见解：

1. 虽然经验回放在传统的持续学习中是有效的，但在智能体环境中，其影响因模型大小、架构和任务复杂性而异；

2.增加过去经验的数量并不总是能提高性能，由于无关信息和上下文长度的限制，甚至可能导致性能下降；

3. 为了缓解这一问题，我们提出了一种新的群体自一致性机制，该机制将历史经验划分为多个组，并应用投票策略来提高决策质量。我们表明，群体自一致性显著提高了多个模型主干的经验回放效果。我们的贡献有三个方面：

我们引入了 LifelongAgentBench，这是首个专门设计用于评估基于 LLM 的智能体在不同的现实交互环境中的终身学习能力的统一基准。

我们首次对 LLM 智能体的终身学习进行了系统分析，揭示了由于无关信息和上下文长度限制，传统经验回放的关键局限性。

我们提出了一种新的群体自一致性机制（group self-consistency），该机制对历史经验进行分组并应用投票策略，显著提高了多个 LLM 主干的终身学习效果。

方法与设计：一个系统化的评估基准

2.1 问题表述

我们将基于 LLM 的智能体的终身学习建模为一系列任务的顺序决策，每个任务都被构建为一个基于目标的部分可观察马尔可夫决策过程（POMDP）。

环境：环境是，其中是状态空间；是自然语言动作；是任务目标；是状态转移；是奖励；是观察值；是观察函数。LifelongAgentBench 提供了 DB、OS 和 KG 环境。

智能体和任务：LLM 智能体遵循策略将观察值映射到动作。

任务是，其中是初始观察值，是目标。智能体生成轨迹，在提交最终答案时获得单一奖励（成功 = 1，失败 = 0）。

目标：给定任务，目标是最大化累积期望奖励：。LifelongAgentBench 评估智能体利用过往经验来提高当前任务性能的能力。

2.2 数据构建

为了在终身学习场景中严格评估 LLM 智能体，我们引入了一个新颖且精心构建的基准数据集，该数据集由三个不同且具有挑战性的环境组成：数据库、操作系统和知识图谱。

与传统基准通常依赖孤立、简单且任务间关系定义松散的任务不同，我们的数据集经过创新设计，以反映复杂、现实的终身学习环境。

该数据集的关键贡献包括系统生成与明确定义的原子技能明确相关的任务、控制技能分布和任务复杂性的复杂方法，以及模拟现实世界可变性的严格噪声管理。数据集的构建需要广泛的验证和策划工作，突显了我们方法的复杂性和稳健性。

2.2.1 设计原则

数据构建过程遵循三个核心原则。首先，我们采用以技能为中心的任务生成方法。每个环境的特点是一组原子技能，其中技能的数量随环境的复杂性而变化。每个任务与这些技能的一个子集相关联，确保跨任务的一致能力表示。

任务和之间的关系通过共享技能比例的调和均值来量化：

其中和表示相对于每个任务总技能的共享技能比例。这种公式捕获了任务之间的共性和独特性。

▲ 图2，数据库环境中的技能分布频率

为了缓解技能孤立，我们采用概率采样策略，其中不常见的技能具有更高的采样概率，确保数据集中的均衡表示。噪声水平通过调节包含稀有技能的任务比例来控制，便于进行鲁棒性分析。

任务涵盖简单、中等和复杂配置，以模拟现实世界的可变性，并允许在不同难度级别进行评估。如图 2 所示，任务之间的技能存在广泛联系。每个环境中的技能集总结见表 2。

▲ 表2，各环境中技能设置

2.2.2 环境实现

数据库：我们使用 Docker 容器化的 MySQL 实例来实现此环境，以确保可重复性。每次实验运行都会创建一个新的 MySQL 容器，以保持任务隔离。任务通过生成具有预定义属性的数据库表来初始化，任务完成后该表将被删除。

我们确定了 22 项与 SQL 相关的技能，包括列别名、使用 WHERE 和 HAVING 子句的复杂过滤、多列分组、数据操作（INSERT、UPDATE、DELETE）和嵌套子查询。每项技能的详细描述见附录 A.1.1。

任务构建从采样技能开始，优先考虑不常见的技能。使用 DeepSeek-R1 模型生成与采样技能对应的 SQL 查询。每个查询都在一个合成数据库实例上执行，无效或不一致的任务将被丢弃。

为了防止技能不平衡，我们要求在 500 个选定任务中每个技能至少出现 20 次。任务正确性通过自动验证（例如，结果匹配、数据库状态的 MD5 哈希）和手动检查（随机抽样 10% 的任务以检查语法和逻辑一致性）来验证。

操作系统：该环境利用运行 Ubuntu 的一次性 Docker 容器来隔离任务。每个任务后容器将被销毁并重新实例化。我们定义了 29 项 Bash 命令技能，包括文件操作（cp、mv、rm）、用户管理（useradd、groupadd）、文本处理（awk、grep、sed）和系统监控（ps、top）。

任务按复杂性分组：简单（1-4 个命令）、中等（5-8 个）和复杂（9-12 个）。使用 DeepSeek-R1 生成命令序列，确保多步骤之间的逻辑一致性。验证脚本自动将命令输出与预期结果进行比较，文件更改通过校验和验证。

初步实验表明，较简单的任务提供的终身学习价值有限；因此，最终数据集主要关注复杂任务，以捕捉技能间的依赖关系。

知识图谱：该环境基于 SPARQL 查询系统。任务涉及通过关系提取和交集等操作查询结构化数据。任务是从 GrailQA 数据集中精心挑选的，通过将 S 表达式映射到逻辑动作序列。

这些序列的长度从 2 到 9 步不等，以确保任务长度的均匀分布。每个查询都在一个合成知识图谱上进行验证，以确认结果的正确性。复杂查询（7-9 步）接受额外的手动验证，以确保语义准确性。

2.3 质量控制

▲ 图3，图片中的技能分布维持了多样以及平衡

标签验证：我们采用自动化验证机制，包括 SQL 查询的结果比较（图4）、Bash 命令的退出代码检查（图5）和 SPARQL 查询的输出验证。此外，每个环境中 10% 的任务经过手动审查，以确保逻辑一致性和实际相关性。

试点测试为最终配置提供了依据，以优化任务复杂性和技能覆盖范围。这种多阶段验证确保数据集既具有挑战性，又能代表现实世界的场景。

均衡技能：在数据库环境中，我们使用 DeepSeek-R1 生成了 1,306 个任务，并选择了 500 个高质量样本。任务涵盖 22 项 SQL 技能，通过分层抽样确保分布均衡（图3a）。在操作系统环境中，精心挑选了 500 个复杂任务，命令序列长度为 9 到 12 步，以最大限度地提高任务间的技能重叠。

初步测试显示低复杂性任务（1-8 步）的回放效益最小，因此将其排除（图3b）。在知识图谱环境中，从 GrailQA 中提取了 396 个任务，映射到 2 到 9 步的原子动作序列。观察到超过六步的序列中回放效果减弱。

▲ 图4，SQL 查询的结果比较

▲ 图5，Bash 命令的退出代码检查

2.4 评估框架

2.4.1 系统架构

该框架由六个松散耦合的组件组成：模型池、智能体、环境、聊天历史工厂、控制器和回调。每个组件可以在不同的服务器上独立部署，并通过自定义远程过程调用（RPC）工具包进行通信，支持灵活的分布式或本地部署。

模型池维护模型名称和实例之间的映射，支持开源和专有 LLM 后端。智能体模块将环境观察和对话历史转换为格式化的输入，查询 LLM，并将输出解析为可执行的动作。环境组件执行这些动作，并将更新后的观察返回给控制器。它还实现了标准化方法，如重置、交互、完成、计算指标和释放，以确保跨环境的一致性。

控制器管理交互循环，监督任务调度，并将智能体动作中继到环境。回调系统提供了用于监控内部事件的可扩展钩子，便于重现性和实验定制。

2.4.2 可重复性和模块化

LifelongAgentBench 的两个核心设计原则是可重复性和模块化。该框架在固定随机种子下保证确定性行为，并使用容器化的环境快照来确保跨实验运行的任务条件相同。

此外，它还公开了模块化 API，用于以最小的工程开销集成新环境、任务生成器、自定义智能体架构或评估指标。这种灵活性允许研究人员在保持一致性和可比性的同时，尝试各种终身学习策略。

2.4.3 与先前基准的差异

现有的 LLM 智能体基准，如 WebArena 和 AgentBench，要么依赖并行任务执行来减少评估时间，要么使用进程池来并发管理多个任务序列。这些设计与终身学习评估不兼容，因为任务执行的严格顺序直接影响智能体积累的知识和性能。

相比之下，LifelongAgentBench 强制执行严格的顺序执行，以保持经验积累和迁移学习评估的完整性。

此外，虽然先前的框架将智能体、控制器和环境紧密耦合到复杂的多进程架构中，但我们的设计促进了开发人员友好的单进程调试，并具有可选的分布式可扩展性。这种架构大大降低了使用 LLM 智能体进行终身学习研究的门槛。差异总结见表 1。

实验与分析

3.1 实验设置

模型：我们评估了四种基于 LLM 的智能体：Llama-3.1-8B-Instruct、Qwen2.5-7B-Instruct、DeepSeek-R1-Distil-Llama-8B 和 DeepSeek-R1-Distill-Qwen-7B。所有智能体共享统一的 API，具备可复现的初始化、动态经验回放和可选的群体自一致性机制。

基线与指标：我们在以下条件下评估智能体性能：基线（无回放）、经验回放（使用 1、2、4、8、16 个历史成功轨迹）、带群体自一致性的经验回放。历史经验从近期成功轨迹中检索。评估指标为任务成功率，即通过正确动作序列完成任务的比例。

环境：实验在 Linux 服务器（NVIDIA A800，80GB 显存）上运行。代码基于 Huggingface Transformers 和 PyTorch，采用分布式 RPC 框架实现模块化部署。系统支持自动 checkpoint 功能，可从中断处恢复实验。

3.2 实验结果

▲ 表3，LifelongAgentBench 的主要结果。主干模型为 Llama-3.1-8B-Instruct。“Exp” 表示提供给智能体的最近成功轨迹的数量。每个环境的最佳结果以粗体显示。“OOM”表示内存溢出。

开源模型的强劲表现

表 3 结果显示，开源模型 Llama-3.1-8B-Instruct 在所有环境中均实现了合理且稳定的性能。这与 AgentBench 等先前基准不同 —— 在后者中，开源 LLM 常表现不佳，限制了学术可复现性和可访问性。

经验回放对性能的持续提升

与基线（Exp=0）相比，引入历史成功轨迹的经验回放显著提升了智能体性能：

DB 环境：回放样本数从 0 增至 64 时，准确率从 19% 提升至 78%。
OS 环境：样本数为 4-16 时，准确率从 43% 提升至 50%。
KG 环境：仅使用 1 个样本时，准确率从 28% 提升至 35%。

回放收益与内存限制的权衡

超过最优值后，增加回放样本会因输入长度超限、推理复杂度上升和内存不足（OOM）导致收益递减甚至性能下降：

DB 任务（轨迹较短）：可受益于较大的回放缓冲区。
OS 和 KG 任务（多轮长交互）：在样本数较低时达到性能峰值，随后因输入过载或 OOM 导致退化。

内存高效回放仍是开放性挑战

实验表明，经验回放虽能提升 LLM 智能体性能，但引入了显著的内存和推理成本。设计更高效的检索与总结策略，仍是未来研究的重要方向。

3.3 模型主干与任务难度的影响

主干 LLM 的差异

我们评估了不同架构和规模的开源 LLM，发现主干选择显著影响经验回放效果（表4）：

强基础模型（如 Qwen2.5-7B-Instruct、Qwen2.5-32B-Instruct）：添加历史经验的性能增益较小甚至为负。例如，Qwen2.5-32B-Instruct 在无回放时准确率达 0.82，后续回放未明显提升。
Llama-3.1 系列：随经验增加持续稳定提升，Llama-3.1-70B-Instruct 在 64 样本时达 0.90 准确率。这表明模型架构可能决定经验回放的效用 —— 部分模型可能天然擅长从单轮示例中学习，而另一些则更依赖历史轨迹。

▲ 表4，使用不同主干 LLM 时的结果。环境为 DB。每个主干 LLM 的最佳结果以粗体显示。“OOM” 表示内存溢出。

推理型与非推理型 LLM 的对比

专为复杂推理设计的模型（如 DeepSeek-R1-Distill 系列）性能显著较差，且在大回放规模下易因 OOM 失败。这类模型倾向于生成冗长的思维链和冗余中间输出，增加输入长度并可能干扰执行环境 [2]。

这凸显了 LifelongAgentBench 与 LiveCodeBench [8]、GPQA [14] 等先前基准的差异 —— 后者以复杂多跳推理为核心，而前者强调从历史交互中高效获取和重用技能。

模型规模的影响

模型规模与性能呈正相关：更大的主干模型在多数回放设置中表现更优。Llama-3.1-70B-Instruct 展现出更强的鲁棒性，在 64 样本时仍未出现 OOM，准确率达 0.90。

有趣的是，中等规模模型（如 Llama-3.1-8B-Instruct）通过精心设计的经验回放和模型调优，在 64 样本时准确率达 0.78，接近更大模型的性能，同时计算成本显著更低。

3.4 任务难度的影响

▲ 表5，数据库环境中在不同难度层级上的表现

经验回放在复杂任务中的价值

在 DB 环境中，按所需 SQL 技能组合将任务难度手动划分为简单、中等、困难三类。表 5 显示：

简单任务：经验回放增益有限（70%→76%）。
困难任务：回放带来显著提升（49%→62%）。

这表明，当智能体面临需要多技能推理的复杂任务时，历史示例能提供关键参考，回放机制尤为重要。

▲ 表6，在不同重放大小下，知识图谱中按动作序列长度的性能表现

任务长度与回放收益的相关性（KG 环境）

KG 环境中，任务难度由真实动作序列长度自然反映。表 6 显示：

短任务（长度 2-4）：回放收益显著（如长度 2 任务从 48%→84%）。
长任务（长度 7-9）：回放收益微弱或无提升。随轨迹长度增加，输入序列膨胀导致信噪比下降，增加上下文溢出或性能退化风险。

基准对回放 – 难度交互的敏感性

总体而言，LifelongAgentBench 为研究历史经验在不同任务难度下的影响提供了细粒度基准。经验回放在短且明确的任务中效果显著，但在长周期任务中面临可扩展性挑战。设计更有效的内存压缩、过滤或检索策略以应对此类场景，仍是未来研究的重要方向。

3.5 基于群自一致性的经验扩展

▲ 图6，群自一致性的表示

群自一致性减少内存占用并稳定性能

为缓解大规模经验回放的内存和推理开销，我们提出群自一致性机制：将检索到的经验划分为小组，通过自一致性投票聚合预测（图 6）。实验结果见表 7。

▲ 表7，在不同的组自一致性设置下的准确性比较（平均输入token）

数据库环境中的显著准确率提升

在 DB 环境中，群体自一致性随回放规模扩大显著提升性能：

Llama-3.1-8B-Instruct 在 16 组（16 样本）时准确率达 0.75，而无分组时仅为 0.61。
Qwen2.5-7B-Instruct 从 0.72 提升至 0.77。
较小模型（如 DeepSeek-R1-Distill 系列）收益有限，可能受限于模型容量。

知识图谱任务中的内存大幅节省

在知识图谱环境（经验轨迹更长）中，群体自一致性显著减少输入 token 长度：

Llama-3.1-8B-Instruct 在 16 样本时，token 使用量从 56,409（无分组）降至 11,002（16 组），同时保持准确率稳定。
Qwen2.5-7B-Instruct 的 token 数从 59,950 降至 11,339，准确率损失极小。

3.6 失败模式分析

为理解 LLM 智能体在 LifelongAgentBench 中的失败模式，我们根据智能体行为和系统状态对任务结果分类，发现四种常见失败类型：

1. 最终提交错误（completed）：智能体输出格式正确但内容错误。

2. 未提交结果（task_limit_reached）：智能体完成多步操作但未显式提交最终答案。

3. 格式违规（agent_validation_failed）：智能体违反输出格式或指令模式。

4. 上下文溢出（agent_context_limit）：因交互过多或中间输出过大超出 LLM 上下文窗口。

这些结果揭示了当前 LLM 智能体在多步交互任务中的关键局限：推理不稳定、指令遵循性差、上下文管理不足。典型案例的详细示例见论文附录 D。

结论、局限性与未来工作

我们提出了 LifelongAgentBench，首个专门用于评估 LLM 智能体终身学习能力的统一基准。

与将智能体视为静态系统的先前基准不同，LifelongAgentBench 系统衡量智能体在多样化交互环境中积累、保留和迁移知识的能力。实验证明了经验回放和群体自一致性提升智能体性能的潜力，同时揭示了关键挑战。

尽管取得进展，局限性依然存在：经验回放引入显著的内存和上下文长度开销，尤其在长周期任务中；性能因模型架构而异，较小或推理优化的模型从回放中受益较少。

LifelongAgentBench 为研究智能体的持续适应提供了标准化平台，提供清晰基线和诊断工具以推动后续研究。我们希望这项工作能启发更具可扩展性、鲁棒性和内存效率的终身学习智能体的开发。未来方向包括更高效的内存检索策略、动态经验选择，以及将基准扩展至多模态和真实世界智能体任务。

（文：PaperWeekly）

2025 年 6 月
一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

发表评论 取消回复

下载每时AI手机APP

发表评论取消回复