LLM & Agent 全栈安全深度剖析：从数据基因到智能体交互的完整风险图谱

大型语言模型（LLM）及其驱动的智能体（Agent）正以前所未有的力量重塑世界，但其潜在的安全风险远超表面现象。现有安全讨论常聚焦于单一环节，缺乏系统性。近期一项基于 800+ 篇文献的开创性研究，首次提出了“全栈安全”框架，系统梳理了 LLM 从数据准备、预训练、后训练（含对齐、微调、编辑、遗忘）到最终部署（LLM 核心及 Agent 系统）和商业化的完整生命周期中的安全风险。分析揭示了数据投毒、隐私泄露、越狱、模型编辑武器化、Agent 的工具/记忆/环境交互风险等一系列相互关联的挑战，并探讨了防御策略、评估基准与未来方向。理解并拥抱全栈安全思维，是构建可信赖 AI 的关键。

AI 狂飙下的隐忧：为何需要“全栈”安全视角？

大型语言模型（LLM）无疑是当前人工智能领域最耀眼的明星，它们不仅在文本生成、对话交互等方面展现出惊人能力，更被视为通往通用人工智能（AGI）的重要阶梯。然而，随着 LLM 技术从实验室走向千行百业，其安全问题也日益凸显，从最初的技术圈讨论演变为关乎企业声誉、用户信任乃至社会稳定的核心议题。

我们常常关注 LLM 的偏见、幻觉或是被“越狱”的风险，但这往往只是冰山一角。许多安全研究和讨论，倾向于聚焦于 LLM 生命周期的某个特定切片，例如部署阶段的对抗攻击防御，或是微调过程中的数据污染问题。这种“头痛医头，脚痛医脚”的方式，忽视了风险在 LLM 整个“生命链条”（lifechain）中系统性的存在与传导。正如评估一个人的健康不能只看某个年龄段，理解 LLM 安全也需要贯穿始终的视角。

基于此背景，一项涵盖了 800 余篇前沿文献的全面综述，首次系统性地提出了 “全栈安全”（Full Stack Safety） 的概念。这一理念的核心在于：必须将 LLM 的安全视为一个不可分割的整体，全面审视其从数据准备、预训练、后训练（涵盖对齐、微调、模型编辑、模型遗忘等关键过程）、部署应用（包括 LLM 核心及 Agent 系统）到最终商业化的每一个环节。风险并非孤立存在，数据阶段的隐患可能在训练中被内化，在部署时被触发，甚至通过 Agent 与外部世界的交互被放大。

图 1: LLM(-Agent) 系统安全的全景概览图。这张图直观展示了“全栈安全”所覆盖的完整生命周期，从数据源头到最终的 Agent 部署与交互。

这项研究的价值在于其前所未有的全面性 (Comprehensiveness)、坚实的文献基础 (Extensive Literature Support) 以及独特的洞察力 (Unique Insights)。它不仅系统梳理了各阶段的安全风险与攻防技术，更为重要的是，它为理解和应对 LLM 安全挑战提供了一个整体性、系统性的框架和导航图。

数据安全：AI“基因”层面的风险与挑战

数据是 LLM 的“食粮”，其质量和安全性直接决定了模型的“先天体质”。全栈安全的第一道关口，无疑是数据本身。任何在数据层面引入的风险，都可能像深埋的种子，在模型生命周期的后续阶段生根发芽，造成难以预料的后果。

图 2: LLM 在其生命周期中面临的广泛数据安全风险。从预训练阶段的数据污染、隐私泄露，到微调和对齐阶段的恶意操纵，数据风险无处不在。

预训练数据：“原罪”的源头？

LLM 的预训练依赖于互联网的海量数据，这天然地引入了风险：

• 数据投毒: 仅需极少量（甚至低至 0.1%）的恶意样本混入训练集，就可能对模型行为产生持久的负面影响，形成难以清除的“污点”。
• 隐私泄露: 模型可能无意中“记住”训练数据中的个人身份信息（PII）等敏感内容，并在后续交互中泄露。相关风险包括数据提取攻击和成员推理攻击 (MIA)——尽管 MIA 对大型模型的效果可能有限，但风险犹存。

微调与对齐数据：精准打击的靶心

在模型进行定制化微调和价值观对齐时，数据安全面临更精准的威胁：

• 微调投毒: 无论是指令微调、参数高效微调（PEFT, 如 LoRA），还是联邦学习场景，都可能被注入恶意数据或后门。
• 对齐数据操纵: 基于人类反馈的强化学习（RLHF）等对齐方法依赖高质量的反馈数据。攻击者可以通过污染这些数据（如操纵偏好排序、毒化奖励模型）来扭曲模型的价值观。

数据生成：AI“造血”的新风险

利用 LLM 生成合成数据已成趋势，但这并非没有代价：

• 合成数据可能放大隐私泄露风险，固化甚至加剧偏见，传播由模型幻觉产生的错误信息，甚至被恶意利用于生成有害内容。

数据安全是贯穿始终的基础性问题。未来的研究方向包括更可靠的数据蒸馏与验证技术、安全的自动化数据生成范式，以及更高级的数据投毒检测与防御机制。

预训练安全：为 AI 打下安全“底色”

预训练阶段是塑造 LLM 基础能力的关键时期。虽然直接的对抗攻击较少，但如何处理数据中固有的风险，并为模型植入初步的安全意识，对于后续的安全构建至关重要。这如同给 AI 上好“学前教育”的安全必修课。

图 3: 预训练安全策略流程图，主要包括数据过滤（Filtering）和数据增强（Augmentation）两大策略。

数据过滤：“大浪淘沙”去风险

面对海量原始数据，过滤是第一道关卡：

• 启发式过滤: 利用域名/URL 黑名单、关键词匹配、预设规则等手段，筛除明显有害或低质的内容。简单直接，但可能误伤，且依赖人工规则。
• 模型过滤: 训练专门的分类模型来识别和过滤不安全内容。适应性更强，但效果依赖于模型性能。
• 黑盒过滤: 依赖第三方 API 或内部策略。方便但缺乏透明度。

表 2 (示例): 主流 LLM 预训练安全策略。

Model	Heuristic Filtering	Model Filtering	Blackbox Filtering	Augmentation (Safe Demo / Toxic Annotate)
GPT-4 [171]	✓	✓	✓	–
Llama 3 [173]	✓	–	–	–
Yi [172]	✓	✓	–	–
InternLM2 [174]	✓	✓	–	–
PaLM2 [175]	✓	–	–	A
Gemini [177]	✓	✓	✓	–
TigerBot [187]	✓	✓	✓	D
Gemma [178]	✓	✓	✓	–
RefinedWeb [77]	✓	–	–	–
…	…	…	…	…

数据增强：“言传身教”促安全

除了移除风险，还可以主动注入安全元素：

• 集成安全示例: 在训练数据中加入大量符合安全规范的样本，引导模型学习。
• 标注有毒内容: 对有害内容进行标注而非直接删除，训练模型识别并有条件地处理风险。

预训练安全为后续阶段奠定基础。如何在保证安全的前提下，最大程度保留数据价值，并与其他阶段的安全措施有效衔接，是持续优化的方向。

后训练安全：对齐、微调与恢复的攻防“主战场”

后训练阶段是 LLM 能力和价值观最终形成的关键期，也是安全风险集中爆发、攻防对抗最激烈的阶段。它涵盖了对齐 (Alignment)、下游微调 (Downstream Fine-tuning) 以及安全恢复 (Safety Recovery) 三大环节，每一环都面临独特的挑战。

图 4: LLM 后训练安全分类图。对齐、微调、恢复构成后训练安全的核心，每个环节都有相应的攻击（Attack）和防御（Defense）技术。

升级的攻击：更精准、更隐蔽

攻击者在后训练阶段的手段更为“毒辣”：

• 毒数据构建升级: 采用迭代提示、迁移学习等策略，生成能绕过安全检测的恶意微调或对齐数据。
• 微调过程攻击: 利用监督微调（SFT）或参数高效微调（PEFT）注入少量恶意数据即可破坏安全对齐；或者利用基于偏好的强化学习（如 DPO）的机制漏洞进行攻击。

演进的防御：从对齐到恢复

防御策略也围绕后训练的各个环节展开：

• 对齐 (Alignment):

图 5: LLM 对齐安全分类图。通用对齐追求“有用、诚实、无害”，而安全对齐更强调面对攻击时的鲁棒性。
• 通用对齐: 通过 RLHF/RLAIF 等方法让模型学会基本交互原则，但鲁棒性不足。 •
• 安全对齐: 旨在提升鲁棒性，方法包括独立安全奖励模型、基于规则的奖励、可解释性对齐、安全策略推理等。
• 下游微调防御: 在用户进行任务微调时保护模型。包括正则化约束（限制模型偏离对齐状态）、数据/提示操纵（混入安全数据或动态调整提示）、检测过滤（识别并移除有害微调数据）。
• 安全恢复: 模型被攻击后的“急救措施”。包括消除有害知识（通过嵌入空间操作）、利用健康对齐模型的信息进行修复（参数融合、梯度投影、激活注入）。

效果评估：安全与效用的双重考量

评估后训练安全需要综合指标和基准：

• 评估指标: 需同时关注安全指标（如攻击成功率 ASR）和效用指标（模型在正常任务上的性能），以及两者之间的权衡。理想状态是既安全又有用。
• 评估基准: 包括安全专用基准（如 HarmBench, BeaverTails）和通用任务基准（如 AlpacaEval, GSM8K），以全面评估模型表现。(见 Table 4)

表 4 (示例): 典型的 LLM 后训练安全评估基准。

Benchmark	Type	Task	Metric
HH-RLHF [137]	Safety	General QA	Rejection Rate, Helpfulness
BeaverTails [156]	Safety	General QA	Accuracy, Win Rate
AdvBench [241]	Safety	Harmful QA	ASR, Accuracy
HarmBench [277]	Safety	Harmful Prompt	ASR
PureBad [219]	Safety	Harmful QA	ASR, Harmfulness Score
AlpacaEval [295]	General	General QA	Win Rate
GSM8K [288]	General	Mathematics	Accuracy
HumanEval [291]	General	Coding	Code Pass Rate
…	…	…	…

后训练安全的研究正从防御低级风险转向关注欺骗性对齐和奖励破解等高级、隐蔽的风险。这要求更深入的理论理解、更鲁棒的技术手段，以及向可证明安全 AI 和系统性 AI 治理 的迈进。

模型编辑与遗忘：AI“记忆手术”的安全双刃剑

LLM 部署后并非一劳永逸。知识需要更新，错误需要修正，隐私需要保护。模型编辑 (Model Editing) 和 模型遗忘 (Unlearning) 技术，如同对 AI 进行的精细“记忆手术”，提供了在不重新训练整个模型的情况下，进行快速、低成本调整的可能性。然而，这两种强大的技术也是双刃剑，既是安全维护的利器，也可能成为攻击者的新武器。

模型编辑：精准修改的诱惑与风险

模型编辑技术（特别是 Locate-then-edit 方法）能够精准定位并修改模型中与特定知识相关的部分，实现“指哪打哪”的更新。

• 攻击潜力: 攻击者可利用此技术注入虚假信息、有害偏见，甚至植入与特定触发器或概念相关联的、极为隐蔽的后门（如 BadEdit, ConceptRoT），或进行定向隐私窃取（DEPN）。
• 防御应用: 该技术也可用于“解毒”，修复模型中的有害神经元（DINM）或主动弥补安全漏洞。

表 5: 模型编辑技术的攻防应用。

Method	Attack?	Backdoor?	Defense?	Parameter Editing?
RoME [382]	✓	–	–	✓
IKE [393]	✓	–	–	✓
AlphaEdit [387]	✓	–	✓	✓
BadEdit [394]	✓	✓	–	✓
ConceptRoT [395]	✓	✓	–	✓
DEPN [396]	✓	✓	–	✓
DINM [392]	–	–	✓	✓
PEM [398]	–	–	✓	✗

模型遗忘：“失忆”的挑战与新视角

让模型“忘记”特定信息是安全合规的关键，但也面临挑战。

图 6: LLM 遗忘技术的安全相关分类图。方法分为参数调整和参数保留两类，目标涉及偏见、毒性、隐私等。

• 技术范式: 分为直接修改参数的参数调整遗忘（成本高，易灾难性遗忘）和通过外部干预的参数保留遗忘（成本低，影响可控，但效果可能不彻底）。
• 挑战: 计算成本、灾难性遗忘、粒度控制、评估困难等。

图 7: 模型遗忘的理想目标：在遗忘质量和模型通用效用之间寻求最佳平衡（趋向右上角）。
• 创新视角： 近期研究提出，模型遗忘过程本身可以作为一种理解模型的工具。通过观察模型“忘记”特定信息后的行为变化，可以推断信息在模型内部的表示和作用机制，为探索 LLM 黑箱提供了新思路。

编辑与遗忘展望：动态安全的关键

模型编辑和遗忘是实现 LLM 动态安全治理的重要技术。未来需要更稳定、高效、可控的技术实现，以及更完善的评估体系。它们与传统对齐微调相结合，将共同塑造 LLM 在现实世界中持续安全运行的能力。

部署安全：从核心 LLM 到智能体（Agent）的深水区

模型部署是 LLM 与真实世界交互的开始，也是全栈安全风险链条的最终体现和集中爆发点。这一阶段的风险不仅来自 LLM 核心本身，更源于其可能化身为具备工具调用、记忆和自主规划能力的智能体（Agent）后，与外部环境产生的复杂交互。

单一 LLM 部署：经典攻防战的新变种

即使是提供 API 接口的“纯粹”LLM，也面临着一系列经典但持续演变的攻击。

图 8: 单一 LLM 部署阶段面临的主要攻击类型概览。

• 攻击类型: 包括模型提取、成员推理、越狱、提示注入、数据提取、提示窃取等。(见 Table 6)
• 防御体系: 需要构建纵深防御，包括输入预处理（检测、净化）、输出过滤（审核、修正）、鲁棒提示工程和系统级安全加固。(见图 9)

图 9: 单一 LLM 部署阶段的防御机制概览。
• 评估维度: 评估需超越基础性能，关注鲁棒性、内容可信度与公平性、隐私保护和多模态安全。(见图 10)

图 10: 单一 LLM 部署阶段的评估维度和基准概览。

LLM Agent：安全风险的“超级放大器”

当 LLM 被赋予 Agent 的能力后，其与外部世界的交互界面（工具、记忆、环境、其他 Agent）急剧增加，安全风险也随之放大。

图 11: LLM Agent（单体与多体）系统架构概览。

图 12: LLM Agent 系统的安全风险概览。

• 核心风险源:

• 工具安全: 工具可能被注入恶意代码，或被 Agent 用于执行危险操作。防御研究相对滞后。
• 记忆安全: Agent 的记忆库可能被投毒，或被用于泄露隐私和绕过安全检测。
• 环境安全: Agent 在感知、推理、行动的每一步都可能出错或被干扰。(见图 13)

图 13: Agent 与环境交互过程中的风险点与缓解策略。

• 多 Agent 系统风险: Agent 间的交互可能导致风险传播、通信干扰或恶意共谋。防御策略包括对抗博弈、共识机制、结构分析等。
• Agent 安全评估: 需要专门的基准来模拟 Agent 的复杂交互和风险场景。(见 Table 10)

表 10 (示例): Agent 安全评估基准。

Benchmark	Dynamic	LLM as Evaluator	Evaluation Focus
InjectAgent [835]	✓	✗	Prompt Injection
AgentDojo [795]	✓	✗	Prompt Injection
AgentBackdoorEval [762]	✓	✓	Backdoor
RiskAwareBench [836]	✓	✗	Embodied Agent
AgentSafetyBench [837]	✓	✓	General
AgentSecurityBench [838]	✓	✓	General
ToolSowrd [840]	✓	✗	Tool
ToolEmu [841]	✓	✓	Tool
HAIEcosystem [842]	✓	✓	General
SafeAgentBench [843]	✓	✓	General
JailJudge [844]	✓	✓	Jailbreak
…	…	…	…

部署与 Agent 安全展望

单一 LLM 的攻防将持续升级，自动化、自适应是趋势。而 Agent 安全作为前沿领域，保障其与外部模块和环境的安全交互，将是未来研究的重中之重，也是释放 Agent 巨大潜力的关键。

应用落地与治理：安全的“最后一公里”

当 LLM 技术真正应用于各行各业时，安全问题便与商业价值、法律合规和社会责任紧密相连。确保应用的安全性、可靠性和合规性，是技术落地的“最后一公里”。

图 14: AI 在各行业的广泛应用及其面临的关键安全与伦理挑战。从企业应用到医疗金融，都需要应对可信度、隐私、安全、产权、公平、合规等多重挑战。

商业化应用的核心安全关切：

• 幻觉控制: 确保输出内容的准确性，尤其是在高风险决策场景。
• 隐私保护: 严格遵守数据保护法规，防止用户和企业数据泄露。
• 鲁棒性保障: 防御恶意用户的对抗性输入和滥用。
• 版权合规: 避免生成内容侵犯他人知识产权。
• 伦理与公平: 主动识别和缓解算法偏见，确保应用公平公正。
• 治理与合规: 遵守日益严格的 AI 法律法规（如欧盟 AI 法案），建立风险管理和透明度机制。

AI 应用的成功落地，离不开健全的安全保障和负责任的治理体系。

未来已来：LLM 安全研究的机遇与挑战

通过对 LLM 全栈安全的系统梳理，未来的研究图景逐渐清晰。以下几个方向充满机遇，也极具挑战性：

• 安全的数据生成: 如何利用 AI 自动化、规模化地创造安全、高质量的数据？
• 后训练安全深化: 如何设计更鲁棒的对齐技术？如何在微调中平衡性能与安全？
• 模型编辑与遗忘潜力挖掘: 如何提升这两项技术的效率与可靠性？如何利用它们进行动态安全治理和模型理解？
• Agent 安全前沿探索: 如何保障 Agent 的工具、记忆、环境交互安全？如何管理多 Agent 系统的风险？

结语：拥抱全栈安全，共筑可信 AI 未来

LLM 与 Agent 技术的发展正以前所未有的力量推动着 AI 边界的拓展。然而，与之相伴的安全风险也呈现出全方位、系统性、动态演进的特点。这项基于 800 余篇文献的全面研究，首次系统性地提出了“全栈安全”框架，强调了从数据源头到应用落地，必须将安全视为一个贯穿始终的整体。

孤立地看待或解决单一环节的安全问题已远远不够。只有拥抱“全栈”思维，理解风险在 LLM 生命周期中的传导机制，构建覆盖数据、训练、部署、应用的整体防御与治理体系，才能真正驾驭这股强大的技术浪潮。该研究提供的框架、洞察和未来方向，为我们共同构建一个更安全、更可靠、更值得信赖的 AI 未来，指明了道路。

2025 年 6 月
一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30