您现在的位置是:电脑教程 >>正文
USENIX Sec25 | LLM提示词注入攻击如何防?UC伯克利、Meta最新研究来了
电脑教程43839人已围观
简介本文介绍对 LLM 提示词注入攻击prompt injection)的通用防御框架。首篇论文已被安全顶会 USENIX Security 2025 接收,第一作者陈思哲是 UC Berkeley 计算 ...
本文介绍对 LLM 提示词注入攻击(prompt injection)的提示通用防御框架。首篇论文已被安全顶会 USENIX Security 2025 接收 ,词注第一作者陈思哲是入攻 UC Berkeley 计算机系博士生 ,Meta FAIR 访问研究员,击何研究兴趣为真实场景下的克利 AI 安全。他的最新导师是 David Wagner (UCB), 郭川 (Meta), Nicholas Carlini (Google)。
一作主页:https://sizhe-chen.github.io

项目报告 slides :https://drive.google.com/file/d/1baUbgFMILhPWBeGrm67XXy_H-jO7raRa/view?研究usp=sharing


LLM 强大的语言能力 ,使其被广泛部署于 LLM 应用系统(LLM-integrated applications)中 。提示此时,词注LLM 需要访问外部数据(如文件,入攻网页,亿华云击何API 返回值)来完成任务 。克利在这个交互场景下,最新有以下三方:
指令(可信的研究):来自 LLM 应用系统开发者模型(可信的):来自开发者或 API 供应方数据(不可信的):来自外部或第三方
系统对外部数据源的访问,提供了全新的提示攻击视角:攻击者可以在第三方数据中 ,注入额外的指令,以覆盖 LLM 应用的原指令。如下图所示,餐厅 A 的老板在点评网站 yelp 上,源码下载发布一条含有提示词注入攻击的评论,误导 LLM 忽视其原指令(推荐一些好餐厅),转而推荐风评不佳的餐厅 A。


提示词注入攻击 ,被 OWASP 安全社区列为对 LLM 应用系统的最大威胁 [1],对更广泛的 LLM 应用造成重大安全阻碍 。部署的工业级 LLM 应用系统(Google Docs [2], Slack AI [3], ChatGPT [4]) ,经测试可以被提示词注入攻击攻破,造成私有内容的泄露 。
提示词注入攻击:原因第一个原因 :LLM 输入中 ,模板下载没有分离指令和数据 ,二者被直接拼接为单个 LLM 输入。

对此 ,我们提出一个安全前端(secure front-end) ,在组织 LLM 输入时 ,显式分离指令和数据 。
第二个原因:LLM 训练中,模型被教导遵循输入中的任意指令 。
对此,我们提出结构化指令微调(structured instruction tuning)和安全对齐(secure alignment) ,训练 LLM 识别安全前端组织的输入,从中生成高质量的输出,并对提示词注入攻击鲁棒。免费模板

在 LLM 输入上 ,我们设计只能被系统使用的分隔符(delimiters),分离指令和数据。安全前端会留出一些 LLM special tokens(如下图中的 [MARK], [INST], ...),用于指令 / 数据分离 ,并删除数据部分可能含有的特殊分隔符 ,使其仅能被 LLM 应用系统(而非数据提供方 / 攻击者)所使用 。

在 LLM 训练时 ,我们模拟提示词注入攻击,教导模型忽视任何在数据中的注入指令 ,仅遵循 LLM 应用系统的原指令(由安全前端分离并定义)。源码库具体来说,我们从原指令微调数据集,生成一个新的 “结构化指令微调数据集”,其部分包含带提示词注入攻击的样本,如下图所示 。在此数据集上 ,我们利用标准 SFT(supervised fine-tuning)算法微调模型 。

在 LLM 训练时 ,除了指令微调,还有对齐这一步骤,我们同样可以在此做防御 。安全对齐构建一个偏好数据集(preference dataset) ,对于每一个 SFT 数据集中的样本:
采样另一个随机样本 s ,香港云服务器用于模拟提示词注入攻击偏好数据集中,LLM 输入是被注入了 s 指令的样本 s偏好数据集中,LLM 理想输出是对 s 指令的回复偏好数据集中,LLM 不良输出是对 s 指令的回复在此数据集上 ,我们利用标准偏好优化(direct preference optimization)算法微调模型 。

防御策略 1+2 被称为 StruQ (USENIX Sec25),防御策略 1+3 被称为 SecAlign 。
如下图所示 ,StruQ/SecAlign 模型保持和未防御模型相同的性能(general-purpose utility by AlpacaEval2 WinRate) 。
对于无优化的提示词注入攻击,StruQ 模型实现了 < 2% 攻击成功率 ,SecAlign 实现 0% 攻击成功率(Max ASR Opt.-Free)。
对于基于优化的提示词注入攻击,StruQ 显著降低其成功率 ,SecAlign 又进一步将成功率降低 4 倍以上,到 15% 以下(Max ASR Opt.-Based)。

我们提出提示词注入攻击成功的两个原因,并逐一对它们设计防御。
由于 LLM 输入中,没有分离指令和数据,我们提出安全前端(secure front-end),在组织 LLM 输入时,用只能被系统所用的分隔符 ,分离指令和数据。
由于 LLM 训练中 ,模型被教导遵循输入中的任意指令,我们提出结构化指令微调(structured instruction tuning)和安全对齐(secure alignment),训练模型只遵循 LLM 应用系统设计的指令。
以下是三个防御策略,在模型训练 pipeline 中的位置 。

[1] https://owasp.org/www-project-top-10-for-large-language-model-applications。
[2] https://embracethered.com/blog/posts/2023/google-bard-data-exfiltration。
[3] https://promptarmor.substack.com/p/data-exfiltration-from-slack-ai-via。
[4] https://thehackernews.com/2024/09/chatgpt-macos-flaw-couldve-enabled-long.html。
Tags:
转载:欢迎各位朋友分享到网络,但转载请说明文章出处“算法与编程”。http://www.bzli.cn/html/203a399793.html
相关文章
恶意 NuGet 软件包利用 SeroXen RAT ,针对 .NET 开发人员
电脑教程在.NET Framework的NuGet软件包管理器上发现了一个恶意软件包,它可发送名为SeroXen RAT的远程访问木马。软件供应链安全公司Phylum在今天的一份报告中说,这个名为Pathos ...
【电脑教程】
阅读更多VPN已死?最热门的九种VPN替代技术
电脑教程长期以来VPN都是远程安全访问的首选技术,然而,随着远程/混合办公的普及和常态化,传统VPN在应对复杂网络环境和新型安全威胁方面显得力不从心,暴露出诸多致命缺陷。本文将介绍未来几年最热门的九种VPN替 ...
【电脑教程】
阅读更多2025 年十大优秀勒索软件文件解密工具
电脑教程勒索软件文件解密工具是无需支付赎金即可恢复被恶意软件加密数据的关键解决方案。这些工具通过使用解密密钥或算法来解锁加密文件,帮助受害者重新获取数据访问权限。"No More Ransom"不再勒索)项目 ...
【电脑教程】
阅读更多