AI记忆系统首获统一框架！6大操作让大模型拥有人类记忆能力

AI记忆机制团队投稿
量子位 | 公众号 QbitAI

当AI不再只是“即兴发挥”的对话者，而开始拥有“记忆力”——我们该如何重新定义智能？

来自香港中文大学、爱丁堡大学、香港科技大学与华为爱丁堡研究中心的研究团队联合发布了一项关于AI记忆机制的系统性综述，旨在在大模型时代背景下，重新审视并系统化理解智能体的记忆构建与演化路径。

大语言模型（LLMs）正快速从纯文本生成工具演化为具有长期交互能力的智能体。

这一转变对模型的“记忆能力”提出了更高的要求——不仅要能即时理解上下文，还需具备跨轮对话、多模态输入、个性化偏好等长期记忆机制。

然而，目前关于AI记忆系统的研究尚未形成统一清晰的框架，特别是缺乏对记忆机制底层原子操作的系统化理解。

本综述首次从操作与表示两个维度出发，系统构建AI记忆的研究框架。

作者将AI中的记忆表示划分为参数化记忆与上下文记忆两大类，并提出六种基本记忆操作：巩固（Consolidation）、更新（Updating）、索引（Indexing）、遗忘（Forgetting）、检索（Retrieval）与压缩（Compression）。

这些原子操作不仅揭示了AI记忆系统的内部机制，也为系统性能优化和长期一致性提供理论支持。

作者进一步将这些操作映射到四类关键研究主题：长期记忆（long-term memory）、长上下文建模（long-context modeling）、参数记忆修改（parametric memory modification）与多源记忆融合（multi-source memory integration）。

通过这一结构化视角，本综述系统梳理了相关的研究方向、评测数据集与工具，明确了LLMs智能体中的记忆功能协同机制，并为未来研究提供了清晰的路径指引。

记忆分类

参数化记忆 (Parametric Memory)指的是隐含存储于模型内部参数中的知识。这些知识通过预训练或后训练过程获得，嵌入在模型权重中，在推理阶段通过前向传播访问。

它作为一种即时、长期且持续存在的记忆形式，使模型能够快速、无需上下文地检索事实性和常识性知识。

然而，这类记忆缺乏可解释性，也难以针对新经验或特定任务场景进行选择性更新。

上下文记忆 (Contextual Memory)是指显式的、外部的信息，用于补充语言模型内部的参数知识，可进一步划分为两种形态：

非结构化上下文记忆

一种面向多模态的显式记忆系统，支持跨异构输入的信息存储与检索，包括文本、图像、音频和视频等。它能够帮助智能体将推理过程与感知信号相结合，整合多模态上下文信息。根据时间尺度不同，非结构化记忆可分为短期（如当前对话轮的上下文）和长期（如跨会话的历史记录与个性化知识）。
结构化上下文记忆

指将记忆内容组织为预定义、可解释的格式或结构（如知识图谱、关系表或本体）。这类记忆具备可查询性和符号推理能力，常作为预训练语言模型联想能力的有益补充。结构化记忆既可以在推理时动态构建以支持局部推理，也可跨会话持久保存高质量知识。

记忆的原子操作

为了使AI系统中的记忆超越静态存储、实现动态演化，模型必须具备一系列管理与利用记忆的基本操作能力。这些操作可划分为两大类功能模块：记忆管理（Memory Management）与记忆利用（Memory Utilization）。

记忆管理（Memory Management）

记忆管理操作控制信息的存储、维护与裁剪，是确保系统记忆随着时间推移合理演化的核心机制，包括以下四类操作：

巩固（Consolidation）

将短期经验转化为持久性记忆，如将对话轨迹或交互事件编码为模型参数、图谱或知识库。是持续学习、个性化建模和外部记忆构建的关键。
索引（Indexing）

构建实体、属性等辅助索引，提升存储信息的检索效率与结构化程度。支持神经、符号与混合记忆的可扩展访问。
更新（Updating）

基于新知识对已有记忆进行激活与修改，适用于参数内存中的定位与编辑，也包括对上下文记忆的摘要、修剪与重构。
遗忘（Forgetting）

有选择地抑制或移除过时、无效甚至有害的记忆内容。包括参数记忆中的“遗忘训练”机制与上下文记忆中的时间删除或语义过滤。

记忆利用（Memory Utilization）

记忆利用指模型如何在推理过程中调用和使用已存储的信息，包括以下两类操作：

检索（Retrieval）

根据输入（查询、对话上下文或多模态内容）识别与访问相关记忆片段，支持跨源、跨模态甚至跨参数的记忆调用。
压缩（Compression）

在上下文窗口有限的条件下保留关键信息、丢弃冗余内容，以提高记忆利用效率。可在输入前进行（如摘要预处理），也可在检索后进行（如生成前压缩或融合进模型）。

这些操作既是记忆系统动态运行的基础，也引入了数据中毒、误更新等潜在风险，提示未来在记忆生命周期安全性方面的研究必要性。

记忆的关键主题

为了进一步落实记忆操作与表示框架，作者探讨了实际系统中这些操作如何协同运行，进而支持多样化、动态化的记忆使用模式。

例如，在多轮对话系统中，检索增强生成（RAG）框架广泛采用更新、索引、检索和压缩等操作，以维持跨会话记忆并提升响应质量。

而另一些系统则将长期记忆显式编码为超长上下文输入，对检索与压缩操作尤为依赖。

基于这些实际用例，作者将AI记忆研究划分为以下四个核心主题，分别从时间，空间，模型内部状态，模态四个纬度体现出特定操作组合的模式与挑战：

长期记忆（Long-Term Memory）

跨越所有记忆类型，强调跨会话的记忆管理、个性化与推理支持，尤其关注时间结构建模与多轮对话中的持久知识演化；
长上下文记忆（Long-Context Memory）

主要关联非结构化上下文记忆，关注参数效率（如KV缓存裁剪）与上下文利用效率（如长上下文压缩);
参数化记忆修改（Parametric Memory Modification）

特指对模型内部知识的动态重写，涵盖模型编辑、遗忘机制与持续学习策略；
多源记忆整合（Multi-Source Memory）

强调对异构文本来源和多模态输入（如视觉、音频）的统一建模，以提升复杂场景下的稳健性与语义理解。

为系统梳理AI记忆研究的演化趋势，作者基于统一的分类框架构建了一套大规模文献评估流程，覆盖2022至2025年间 NeurIPS、ICLR、ICML、ACL、EMNLP 和 NAACL 的三万余篇论文。

通过GPT驱动的主题相关性打分系统，初步筛选出近四千篇潜在相关研究，并结合人工审核进一步精炼文献集。

为衡量文献影响力，作者提出了相对引用指数（RCI, Relative Citation Index），借鉴医学领域的 RCR 思路，对引用量进行时间归一化，衡量论文在同期中的相对被引水平，从而避免“早发表多引用”带来的偏差。

RCI 有助于识别阶段性重要成果，并支撑代表性研究与发展趋势的深入分析。这一体系不仅揭示了当前记忆研究的重点分布，也为构建更强大、可控的记忆增强型系统提供了系统性理论支持与路径指引。

作者不仅展示了这些主题与记忆类型之间的对应关系，也进一步总结了每类研究中典型的记忆操作模式。

作者同时在文中附录总结了各类主题研究的代表方法、基准数据与评估指标，涵盖操作支持范围、实验评估标准与实际应用场景，为研究者提供完整的参考框架。

长期记忆

长期记忆（Long-term Memory）是支撑AI系统进行跨轮推理、个性化生成与动态决策的关键能力。

相比于短期上下文窗口，长期记忆能够跨越会话边界，持续积累与调取历史交互、环境观察和用户偏好等信息，从而构建更具一致性和适应性的智能行为模式。

本节围绕长期记忆的运行机制，系统梳理了其关键操作与利用路径，覆盖“记忆管理—压缩—生成”的完整流程。

在记忆管理层面，作者总结了四类基础操作。

巩固（Consolidation）用于将短期交互转化为长期存储内容，支撑记忆的可持续使用；
索引（Indexing）构建结构化、可查询的访问路径以提升检索效率；
更新（Updating）通过融合新知与重构结构实现记忆内容的迭代演化；
遗忘（Forgetting）则以内容剔除或抽象压缩的方式清除冗余、无效或敏感信息，保障系统稳定性和资源可控性。

当前主流系统已开始通过图谱建模、时间标注与用户反馈机制等方式模拟上述操作，以支持更为动态和人类类比的记忆演化过程。

在记忆利用层面，作者提出“检索–压缩–生成”三阶段联动机制。

其中，记忆检索（Retrieval）旨在从长期存储中筛选与当前输入最相关的信息，可基于查询改写、结构匹配或事件时间线进行匹配优化。

紧接其后的记忆压缩（Compression）作为连接检索与生成的桥梁，不仅承担内容筛选与信息重构任务，更统摄了两个关键子过程：

记忆集成（Integration）：即将多个检索片段整合为统一上下文表征，以供模型高效解码；
记忆驱动生成（Grounded Generation）：即在推理过程中借助已整合的记忆引导语言生成，确保输出与历史上下文保持一致。

无论是静态拼接、多轮追踪，还是跨模态融合，这一系列操作都可归入压缩机制下的结构优化与信息筛选框架中。

尽管检索性能在多个任务中已趋近饱和，但压缩过程仍是系统性能的主要瓶颈，尤其在多轮对话、任务迁移和一致性建模等方面面临挑战。

个性化是长期记忆的重要应用方向。作者将现有方法归为两大类：

一类是模型级适配（Model-level Adaptation），通过轻量调参或模块化组件将用户偏好编码进模型参数中；

另一类是外部记忆增强（External Memory Augmentation），通过调用结构化知识图谱、用户画像或非结构化历史对话，在推理时动态集成用户相关信息。

两类方法各具优势，前者强调高效部署与任务泛化，后者突出可解释性与个体一致性，正逐步走向融合。

在评估层面，当前主流基准仍多聚焦于检索准确率或静态问答性能，对动态记忆操作（如更新、遗忘、巩固）及其时间适应能力的评估仍显不足。

为此，作者提出了相对引用指数（RCI）这一新型指标，对2022至2025年间的高相关研究进行时间归一化的影响力分析。

通过结合RCI得分与研究主题，作者进一步揭示了不同记忆类型、任务范式与操作机制在AI长期记忆研究中的关注分布和演化趋势。

长上下文记忆

长上下文机制是大语言模型中记忆系统的重要组成部分，尤其在缺乏长期外部存储的场景下，承担着临时信息保持与动态推理的记忆功能。

它通过在超长输入序列中存储与调取历史交互、外部文档或用户信息，为AI系统提供跨段、跨轮的记忆支撑。

尽管当前模型架构和训练技术已使得输入长度延伸至百万级tokens，如何有效管理这些上下文并确保信息可用性，仍是关键挑战。

这些挑战主要体现在两个方面：

一是参数记忆效率（Parametric Efficiency），即如何优化KV缓存以支持高效长文本处理；
二是上下文记忆利用（Contextual Utilization），即如何在有限窗口中选择、压缩并集成多源信息，发挥“上下文记忆”的推理作用。

具体来说，KV缓存优化涉及裁剪、压缩与检索策略，力图在最小化计算开销的同时保留必要信息。

而上下文利用则涵盖检索、压缩、集成与生成等核心记忆操作，广泛应用于多轮对话、长文阅读与多模态推理任务。

作者指出，这些上下文机制本质上是构建“即时记忆”与“短期推理缓存”的技术路径，是当前AI记忆系统中不可或缺的一环。

结合RCI引用指数的分析，作者发现KV缓存压缩优化在ML社区尤为活跃，而上下文压缩与检索则是NLP领域的研究重点。

尽管相关工作已有初步成果，但在面对多源、跨模态、任务特定的复杂记忆场景时，长上下文记忆的组织与调用方式仍显不足，值得作为未来AI记忆系统构建的重要方向加以深入探索。

参数记忆修改

参数化记忆作为大语言模型中隐式编码的知识载体，是实现长期知识保持与快速调用的核心形式。

随着大模型逐步走向开放世界环境与个性化应用场景，如何在不重新训练模型的前提下，动态调控内部知识表征成为关键挑战。

本节从“编辑（Editing）、遗忘（Unlearning）、持续学习（Continual Learning）”三类操作出发，系统梳理了近期关于参数化记忆修改的研究进展。

编辑类方法旨在对模型中的特定记忆进行精准定位与修改，主流策略包括定位再编辑、元学习驱动、提示引导与外参模块等，应用广泛于实体更正与知识纠错任务；

遗忘方法则聚焦于选择性地移除敏感或错误知识，实现记忆擦除的同时保留其他无关内容，方法涵盖额外模块插入、目标函数设计与输入操控等路径；

持续学习方法通过正则化或回放机制，实现新知识的渐进融合与灾难遗忘的缓解，适用于动态任务和多阶段训练设置。

作者进一步在三个方面进行了深入讨论：

性能表现分析：不同方法在CounterFact、ZsRE与ToFU基准上展示了不同的权衡格局，提示“特异性建模”与“持续性挑战”仍是后续研究重点；
可扩展性评估：当前大多数非提示法仍受限于模型规模与计算资源，在大模型上的大规模修改能力亟待提升；
影响力趋势（RCI分析）：编辑方法关注度高、落地丰富，而遗忘方法虽数量较少，但在“训练目标”和“附加参数”等方向展现出良好影响潜力。

综上，作者强调：

参数记忆不仅是模型知识调控的关键接口，也是未来智能体学习能力延展的基础模块，值得围绕“表达粒度、多轮积累、语义泛化”等方向持续深入探索。

多源记忆

多源记忆是构建现实世界智能体的核心机制。

现代AI系统需融合内在的参数化知识与多样化的外部记忆，包括结构化数据（如知识图谱、数据库）与非结构化多模态信息（如文本、图像、语音、视频），以支撑复杂任务中的推理一致性、响应可信度与信息可追溯性。

本节围绕两大核心挑战——跨文本整合与多模态协调，系统梳理了当前主流方法与研究趋势。

在跨文本整合方面，研究主要聚焦于两类任务：

其一是多源融合，通过符号–神经混合推理、结构与非结构协同召回以及链式推理机制，推动参数化记忆与外部知识之间的深度对接；
其二是冲突处理，强调在整合异构信息时进行显式的来源归因与一致性验证，避免事实漂移与语义冲突。代表性工作涵盖上下文冲突检测、知识可信度调控与冲突消解等策略。

在多模态协调方面，研究路径沿三大方向逐步拓展：

模态融合策略从联合嵌入与提示级融合发展到基于图结构的可控对齐；
模态检索从静态相似度匹配演进为时间感知与意图驱动的动态召回；
时间建模则成为支撑多轮交互与任务延续的关键，涌现出如 WorldMem 与 E-Agent 等具备自维护能力的系统，能够实现多模态记忆的持续压缩、索引与更新，从而完成从“被动调用”向“主动演化”的范式转变。

RCI 统计显示，跨文本推理仍是当前多源记忆研究的主要阵地，尤其在结构化与非结构化知识整合方面方法体系日益成熟；

与此同时，多模态协调研究也快速兴起，在融合、检索与时序建模方向表现出显著影响力。

尽管如此，当前系统在冲突检测与跨源一致性建模方面仍存显著空缺。

未来的研究应致力于构建具备冲突感知、动态演化与时间一致性控制能力的统一多源记忆体系，以支撑真实环境中长期、多模态、多任务的智能交互。

记忆的实际应用

随着AI系统从静态对话走向动态交互、长期适应与多模态融合，记忆集成正成为支撑各类现实应用的核心机制。

无论是编码通用知识的参数化模型（如编程助手、医学/法律问答）、追踪用户偏好的上下文系统（如健康陪伴与个性化推荐）、还是执行复杂任务的结构化智能体（如会议助理、代码伴侣）——都依赖于对结构化、非结构化与多模态记忆的统一调用。

代表性产品如ChatGPT、GitHub Copilot、Replika、Amazon推荐系统与腾讯 ima.copilot，体现了记忆驱动AI从“任务工具”向“长期伙伴”的范式转变。

在工具层面，记忆增强系统逐步构建出从底层组件（向量数据库、检索器、LLM）到操作框架（LangChain、LlamaIndex、Graphiti）再到完整服务平台（Mem0、Zep、Memary）的生态体系。

它们支撑长期上下文管理、个体状态建模、知识保持与行为调节等关键能力，并正推动“记忆即服务”的工程化实现。

作者在附录中详尽的分析了记忆相关的组件，框架，服务以及产品。

人类 vs. AI：记忆系统对照

作者进一步详细分析了人类与人工智能系统的记忆的相似点和不同点。

具体来说，二者在机制虽然在功能上高度趋同——都支持学习、推理与决策，并在多时间尺度上组织信息——但其底层实现却体现出本质本别。

但在人类大脑中，记忆由神经网络隐式编码，依赖情绪、语境和联想触发，更新常常间接且带有偏误。

而在AI系统中，记忆可以是显式存储的结构化数据或模型参数，通过检索、重写或压缩策略高效更新，具有可追踪与可编程性。

两者在以下关键维度上差异显著：

存储结构

生物分布式 vs. 模块化/参数化
巩固机制

被动慢速整合（睡眠等生理机制）vs. 显式快速写入（策略驱动、可选择）
索引方式

稀疏联想激活（海马体驱动）vs. 嵌入索引或键值查找
更新方式

重构式再巩固 vs. 精准定位与编辑
遗忘机制

自然衰减 vs. 策略删除与可控擦除
检索机制

联想触发 vs. 查询驱动
可压缩性

隐式提炼 vs. 显式裁剪与量化
所有权属性

私有与不可共享 vs. 可复制与可广播
容量边界

生物限制 vs. 受存储与计算资源约束，接近于无限扩展

AI记忆系统的未来蓝图：从操作瓶颈到认知跃迁

要构建真正具备长期适应、跨模态理解与个性化推理能力的AI系统，记忆机制必须迈向新一轮突破。

本研究基于RCI分析与最新趋势，系统梳理了记忆增强AI的未来关键方向：

在该文提及的主题层面，当前AI系统仍面临一些关键挑战：长期记忆缺乏统一评估，导致检索内容与生成输出脱节；长上下文建模难以兼顾效率与表达能力；参数化记忆的修改与擦除机制缺乏控制力与可扩展性；多源记忆融合中普遍存在冲突、不一致与压缩瓶颈。

在前沿视角上，研究者正积极探索更具人类认知特征的机制：如何构建支持时间感知的时空记忆？如何实现从模型参数中直接“检索知识”？如何融合结构化、非结构化与向量记忆实现持续学习？作者也从类脑架构中获得启示——双通道巩固、层级抽象、有限容量与再激活机制为AI提供了新的记忆组织范式。

此外，统一表示体系、群体记忆架构与安全可控的忘忆机制也日益重要。AI系统正从“有记忆”走向“会使用记忆”，而未来的智能体必须具备自我维护、可解释、可协同的全链条记忆能力。

论文地址：https://arxiv.org/abs/2505.00675
Github地址：https://github.com/Elvin-Yiming-Du/Survey_Memory_in_AI

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

🌟 点亮星标 🌟

科技前沿进展每日见

（文：量子位）

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

AI记忆机制团队 投稿量子位 | 公众号 QbitAI