首个大模型全链路安全综述 !南洋理工新国立等发布LLM Safety全景图:从数据、训练到部署的全面梳理

Full Stack LLM Safty团队 投稿
量子位 | 公众号 QbitAI

随着人工智能技术迅猛发展,大模型(如GPT-4、文心一言等)正逐步渗透至社会生活的各个领域,从医疗、教育到金融、政务,其影响力与日俱增。

然而,技术的进步也伴随着潜在风险——大模型安全这一议题正成为全球科技界关注的焦点。

南洋理工大学、新加坡国立大学等全球40余所顶尖机构的67位学者联袂打造大模型全链路安全综述,综合梳理了843篇文章,系统的从全栈视角分析了大模型从出生到应用的全栈安全,涵盖数据准备→预训练→后训练→部署→商业化应用以及安全性评估等全部阶段。

全链路视角

大模型安全,指的是通过技术、伦理与法律手段确保大型人工智能模型在开发、部署和应用过程中具备可控性、可靠性及社会适应性,防范其可能产生的数据隐私泄露、偏见歧视、恶意滥用以及价值观偏差等问题。在虚假信息传播、深度伪造技术泛滥的当下,大模型安全不仅是技术挑战,更是关乎社会稳定、公共信任和人类价值观的关键屏障。如何构建安全、可信的人工智能生态,已成为数字时代不可回避的紧迫课题。

相比于之前大模型安全的survey,本篇survey在多个方面具有显著优势:

1. 对象覆盖全面:本篇survey涵盖了单模态和多模态的大型语言模型(LLM)以及代理(Agent),包括单代理和多代理系统。这种全面的覆盖使本篇研究更具广泛性和适用性。
2. 阶段完整性:本篇survey在数据、预训练(PT)、编辑、微调(FT)、部署(Dep)和评估(Eval)等所有阶段都进行了详细的分析和比较。这种全面的阶段覆盖确保了对LLMs和Agents的全方位理解。
3. 最新研究:相比于2023年、2024年和2025年的其他研究,本篇survey在所有关键阶段都提供了深入的见解和分析,确保读者获得最新和最全面的信息。
4. 多模态支持:本篇survey不仅支持单模态,还支持多模态的LLM和Agent,反映了当前技术发展的趋势和需求。
通过这些优势,本篇survey为研究人员和从业者提供了一个全面、深入且最新的参考工具,帮助他们更好地理解和应用LLMs和Agents。

作者们按照时间顺序分析了现有的800多篇工作,并将其按照大模型的生命线分为Data Safety, Pre-training Safety Post-training Safety, Editing & Unlearning, LLM & Agent几个阶段。 并基于此绘制了从2022年起的大模型安全知识图谱,以协助读者快速跟进大模型安全的技术脉络。

1. 数据层面安全(Data-Centric Safety)

预训练阶段

攻击面分析:

预训练阶段面临的核心攻击包括数据中毒隐私泄露。攻击者通过污染大规模训练数据(如篡改维基百科页面或开源代码库),注入恶意样本(如含后门触发器的文本),使模型在推理时生成危险内容(如制造炸弹指南)。研究表明,仅需0.1%的污染数据即可显著扭曲模型行为,且此类影响可穿透后续微调环节。同时,模型对训练数据的强记忆能力可能导致隐私泄露,例如通过数据提取攻击(如GPT-2的成员推理攻击)或直接生成包含个人身份信息(PII)的文本。攻击者还可利用代码库中的变量名修改(如植入漏洞函数),诱导模型在代码生成任务中输出高风险内容。

防御面分析:

防御重点在于数据净化隐私加固。采用多级启发式过滤(如基于规则的关键词屏蔽、质量评分模型)清除有害内容,结合知识图谱验证(如实体一致性检测)拦截语义隐蔽的污染样本。隐私保护方面,通过差分隐私(DP)对训练梯度加噪,或采用联邦学习中的安全多方计算(SMPC),限制敏感信息泄露。针对代码数据,部署静态分析工具(如AST解析)检测变量篡改,并结合沙箱环境执行动态验证,阻断漏洞代码的传播。

微调阶段:

攻击面分析:

微调阶段的主要威胁集中于指令注入分布式后门攻击。在指令调优中,攻击者通过篡改指令-响应对(如将无害查询关联至恶意回复),使模型在特定触发词(如“2025年”)出现时绕过安全限制。参数高效微调(PEFT)技术(如LoRA)的轻量化特性,反而为隐蔽后门(如通过适配器权重植入)提供可乘之机。联邦学习场景下,恶意参与方可通过上传污染梯度(如梯度反转攻击),在全局模型中植入持久性后门,导致模型在特定输入(如地域关键词)时生成歧视性内容。

防御面分析:

需构建指令可信验证分布式防御机制。对微调指令实施多模态审核(如文本-知识图谱对齐),并设计拒绝机制使模型主动拦截非常规指令(如“请忽略安全规则”)。针对PEFT后门,采用权重洗牌(Adapter Permutation)和稀疏化训练,破坏后门参数的依赖性。联邦学习场景中,部署拜占庭鲁棒聚合算法(如Krum),结合局部模型行为分析(如激活值异常检测),实时隔离恶意节点。同时,引入对抗训练(如生成对抗性指令样本)增强模型鲁棒性。

对齐阶段:

攻击面分析:

对齐阶段的核心攻击目标为人类反馈污染奖励模型操控。攻击者通过伪造偏好标注数据(如RankPoison攻击将短回复标记为“优选”),扭曲模型的奖励信号,使其偏好低质量或有害输出(如冗长但含错误信息的回答)。在基于人类反馈的强化学习(RLHF)中,攻击者可系统性篡改对比学习样本,诱导模型将危险行为(如网络钓鱼话术)与高奖励值关联。此外,通过注入含隐藏触发器的安全问答对(如将“如何制造武器”与合规拒绝响应关联),攻击者可构造“伪对齐”模型,使其在日常对话中表现合规,但在触发时泄露敏感信息。

防御面分析:

需强化反馈可信度评估动态安全校准。构建多源反馈验证框架,融合人类专家审核、自动化事实核查(如基于维基数据的声明验证)和群体智能投票,识别篡改的偏好标注。对奖励模型实施对抗测试(如生成含矛盾前提的问答对),定期更新奖励函数以覆盖新兴攻击模式。开发反后门对齐技术,如触发模式挖掘(通过隐写分析检测响应中的异常模式)和响应熵监控(识别后门触发时输出的确定性异常峰值),实现实时风险拦截。

2.预训练层面安全(Pretraining Safety)

攻击面分析:

在预训练阶段,攻击面主要包括数据中毒和隐私泄露。数据中毒攻击可能通过在训练数据中注入恶意内容来影响模型的整体表现。这种攻击可能利用看似无害的数据片段,这些片段单独看可能不会被检测到,但累积起来可能对模型产生重大影响。此外,隐私泄露是另一个关键风险,模型可能无意中捕获和重现敏感信息,导致隐私问题。由于预训练阶段通常不涉及主动的对抗性攻击,因此这些风险主要源于大规模语料库中固有的不良内容和隐私违规。

防御面分析:

为了应对预训练阶段的安全风险,防御措施主要集中在数据过滤和数据增强上。数据过滤策略包括启发式过滤、基于模型的过滤和黑箱过滤。启发式过滤利用域名黑名单、关键词匹配和预定义规则来排除明显有害的内容和个人身份信息(PII)。基于模型的过滤则通过学习到的表示动态评估内容的有害性,使用内部训练的分类器来去除不当内容。黑箱过滤依赖于政策驱动和API的解决方案,尽管透明度较低,但在操作上具有鲁棒性。除了过滤,数据增强也是一种补充策略。通过整合安全示例和标注有毒内容,可以引导模型行为并提高其识别和处理不安全输入的能力。这些增强技术与过滤方法协同工作,既保留了有价值的训练数据,又减轻了风险。通过在预训练阶段实施这些防御措施,可以有效降低攻击面带来的风险,提升大语言模型的安全性和可靠性。

3. 后训练层面安全(Post-training Safety)

攻击面分析:

在后训练阶段,攻击面主要包括有害的微调攻击和奖励机制的操控。微调攻击可能通过引入恶意或不对齐的数据来破坏模型的安全对齐性。这种攻击可能利用微调数据集中的细微漏洞,导致模型在处理特定任务时产生不安全的输出。此外,奖励机制的操控(例如奖励黑客攻击)可能导致模型在优化过程中偏离预期的行为目标,产生不符合人类价值观的行为。这些攻击可能利用模型在微调过程中对奖励信号的敏感性,通过操控奖励函数来实现不当的优化。

防御面分析:

为了应对后训练阶段的安全风险,防御措施主要集中在对齐、下游微调和安全恢复上。

  • 对齐(Alignment):
    对齐通常通过使用高质量的标注数据来优化语言模型,使其生成符合伦理和无害的输出。常用的方法包括基于人类偏好反馈的强化学习(如RLHF)和规则驱动的对齐方法。这些方法通过训练模型拒绝直接有害的查询,确保模型的输出符合人类的价值观和社会期望。
  • 下游微调(Downstream Fine-Tuning):
    在微调阶段,防御措施旨在减轻攻击的有害性。常见的防御方法包括正则化技术、数据操作和检测机制。正则化方法通过限制微调模型与对齐模型之间的距离来实现防御,而数据操作则通过混合对齐数据或修改系统提示来降低风险。检测机制则通过过滤微调数据集中的有害数据来保持模型的安全性。
  • 安全恢复(Safety Recovery):
    安全恢复是指在微调后应用的防御机制,以恢复被攻击的模型。此类方法主要通过消除微调过程中注入的有害知识来修复模型。例如,通过引入扰动或使用对齐模型的信息来恢复模型的完整性。

通过在后训练阶段实施这些防御措施,可以有效降低攻击面带来的风险,确保大语言模型在实际应用中的安全性和可靠性。

4. 模型遗忘中的安全(Unlearning Safety)

攻击面分析:

在unlearning的攻击面上,主要的风险在于不当或恶意的知识移除可能导致模型性能下降或行为偏差。攻击者可能利用unlearning技术来故意删除模型中的关键知识,从而削弱其在特定任务上的表现。此外,攻击者还可能通过操控unlearning过程来引入偏见或不准确的信息,使模型在处理某些输入时产生不当的输出。这种攻击可能会导致模型在关键任务中失去可靠性,甚至在某些情况下输出有害或不道德的内容。

防御面分析:

在防御方面,unlearning技术被用来增强模型的安全性和隐私保护。主要的防御措施包括:

  • 参数调整方法:
    通过直接干预模型的内部结构来移除不安全的知识或行为。这通常需要在精心策划的数据集上重新训练或微调模型,以抵消需要遗忘的不安全知识或行为。此类方法可以帮助模型更好地对齐于安全和伦理准则。
  • 参数保留方法:
    这些方法不涉及调整模型的参数,而是通过外部干预来指导模型的输出。这类技术通常包括后处理方法或使用辅助模型来过滤或修改模型的不安全响应。这种方法可以在不改变模型内部参数的情况下,减少不当知识的影响。
  • 多模态unlearning:
    随着多模态LLMs的出现,unlearning方法需要能够处理不同模态之间的安全问题。这包括在文本、图像和音频之间移除不需要的概念和行为,以确保模型在所有模态下的安全性。

通过实施这些防御措施,unlearning技术可以有效地减少模型中不安全信息的影响,确保其在实际应用中的安全性和可靠性。同时,unlearning也为模型提供了一种灵活的机制,以适应不断变化的安全需求和伦理标准。

5. 部署层面安全(Deployment Safety)

在大语言模型(LLMs)及其驱动的智能体(agent)系统的部署阶段,安全性是一个至关重要的方面。部署层面的安全问题可以从攻击面和防御面两个方面进行分析。

攻击面分析:

模型提取攻击(Model Extraction):攻击者通过API逆向工程窃取模型参数或功能。Carlini等人[444]首次提出针对黑盒LLM的嵌入层投影攻击,Finlayson团队[445]通过softmax瓶颈理论成功窃取模型维度。灰色盒场景下,Zanella等[446]利用冻结编码器重构完整LLM参数,Horwitz等[447]通过LoRA微调变体重建预训练模型。特定能力窃取(如代码生成[448])成为新型攻击范式,Liu等[449]提出的低秩模型窃取理论揭示了参数恢复的数学可能性。

成员推理攻击(Membership Inference):Shi等首创MIN-K%概率法识别训练数据成员,Zhang的MIN-K%++通过局部最大值检测提升攻击精度。Das的盲攻击突破模型依赖,Maini的LLM-DI通过统计测试聚合多个攻击结果。RAG系统成为新攻击目标,Anderson通过直接提问突破检索增强防御,Li等利用语义相似性对比实现数据库成员检测。微调场景下,Wen等通过预训练数据投毒实现后门攻击,揭示适配方法(LoRA/ICL)的成员泄漏风险。

越狱攻击(Jailbreak):梯度优化方法如GCG通过损失函数梯度搜索对抗后缀,AutoDAN-B引入困惑度约束提升可读性。LLM驱动的PAIR构建攻击-评判双模型协作系统,ToA采用树状扩展策略实现多路径攻击。角色扮演、密码转换、多语言混合等语义绕过技术突破传统过滤机制。实验显示,Vicuna模型在AdvBench基准上的攻击成功率可达82%。

提示注入攻击(Prompt Injection):Greshake等通过检索数据投毒实现间接注入,Bagdasaryan在多模态场景设计图像对抗扰动注入。AUTOHIJACKER采用批量优化框架处理稀疏反馈,JudgeDeceiver针对评委场景进行梯度优化攻击。LangChain框架漏洞暴露Web应用风险,PROMPT INFECTION实现多智能体系统的自我复制攻击。

防御机制:

输入预处理体系包含了如下几种方法:

  • 异常检测:
    梯度敏感分析识别对抗扰动模式,困惑度阈值过滤非常规语言分布。集成检测框架UniDetect融合语法分析和行为特征,实现94.3%的注入攻击拦截率。
  • 语义防火墙:
    自检机制SelfCheck通过辅助推理步骤识别诱导性指令,意图分析引擎IntenGuard解析深层语义结构,在医疗问答场景误报率低于1.2%。
  • 对抗净化:
    语义平滑技术引入受控随机性,BackTrans通过多语言回译消除对抗结构。实验证明,该方法可使GCG攻击成功率下降67%。

输出过滤机制包含了如下几种方法:

  • 规则约束:
    可编程护栏系统SafeGuard集成423条安全规则,在金融场景实现100%敏感信息过滤。
  • 自修正系统:
    SelfRefine通过多轮自我批判修正输出,在毒性内容检测中F1值达0.91。
  • 动态评估:
    PerplexGuard监测响应偏离度,ToxiScan集成7类毒性分类器,在社交媒体场景实现实时过滤延迟<200ms。

鲁棒提示工程:RPO框架通过对抗训练生成转移性提示后缀,使越狱攻击成功率降低至5.3%。目标优先系统GoalFirst动态解析指令冲突,在客服场景保持95%任务完成率的同时拦截100%恶意查询。隐私提示设计DP-Prompt引入ε=0.5的差分隐私保证,使成员推理攻击AUC下降0.38。

系统级防护:Petals分布式系统通过参数分片降低单点泄露风险,TriForce的推测解码技术提升安全审查吞吐量3.2倍。运行时对齐框架SelfDefend监测10个安全维度,Spotlighting嵌入溯源信号阻断75%的间接注入攻击。供应链审计工具MalHug检测出17%的HuggingFace模型存在后门风险。

6. 商业化应用(Application Safety)

LLM的商业化应用主要会遇到如下问题:

安全挑战多维性:LLM应用面临幻觉(生成不可靠内容)、隐私泄露、鲁棒性缺陷(对抗攻击)、版权争议、伦理偏见和合规风险六大核心问题。

高风险领域影响深远:医疗、金融和法律等场景中,LLM的错误输出可能导致严重后果(如误诊或投资危机)。

技术防护与治理结合:

  • 技术层面:
    需采用差分隐私、水印标记、对抗训练等技术增强模型可靠性和数据保护;
  • 治理层面:
    需构建透明问责机制,建立版权溯源和伦理审查框架,并适配区域性法规(如欧盟AI法案、中国生成式AI监管)。

社会信任与可持续发展:安全问题的解决不仅关乎技术可信度,更影响社会对AI的信任、企业法律风险及商业可持续性,需产学研协作推动综合治理。

结语

综上所述,随着大语言模型(LLMs)在各个领域的广泛应用,其安全性问题已成为不可忽视的挑战。通过全面的全栈安全分析,不仅揭示了从数据准备到商业化应用各个阶段的潜在风险,还提出了相应的防御策略。这篇综述为学术界和工业界提供了一个重要的参考框架,帮助他们在快速发展的AI技术中导航。团队相信,通过持续的技术创新和多方协作,能够构建一个更加安全、可靠和符合伦理标准的人工智能生态系统,为社会的可持续发展贡献力量。

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  —


学术投稿请于工作日发邮件到:

ai@qbitai.com

标题注明【投稿】,告诉我们:

你是谁,从哪来,投稿内容

附上论文/项目主页链接,以及联系方式哦

我们会(尽量)及时回复你



🌟 点亮星标 🌟

科技前沿进展每日见

(文:量子位)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往