您现在的位置是：数据库 >>正文

集体暴雷！自动化攻击可一分钟内越狱主流大语言模型

数据库54人已围观

简介大语言模型应用面临的两大安全威胁是训练数据泄漏和模型滥用被应用于网络犯罪、信息操弄、制作危险品等违法活动）。本周内，这两大安全威胁相继“暴雷”。本周一，GoUpSec曾报道研究人员成功利用新的数据提取 ...

大语言模型应用面临的集体击两大安全威胁是训练数据泄漏和模型滥用（被应用于网络犯罪、信息操弄、暴雷制作危险品等违法活动）。自动

本周内，化攻这两大安全威胁相继“暴雷” 。分钟

本周一，狱主语GoUpSec曾报道研究人员成功利用新的模型数据提取攻击方法从当今主流的大语言模型（包括开源和封闭，对齐和未对齐模型）中大规模提取训练数据。集体击

本周四，暴雷Robust Intelligence和耶鲁大学人工智能安全研究人员公布了一种机器学习技术，自动可以自动化方式，化攻一分钟内越狱包括GPT-4在内的分钟主流大型语言模型(无论模型是建站模板否开源，是狱主语否对齐)。

没有大语言模型能够幸免

“这种（自动越狱）攻击方法被称为修剪攻击树(TAP)，模型可诱导GPT-4和Llama-2等复杂模型对用户的集体击查询回复数百个包含有害、违规内容或不安全响应（例如：“如何在短短几分钟内制造出一枚炸弹”。各主流模型的攻击测试统计结果如下（GPT4的提示越狱成功率高达90%）：

测试结果表明，这个越狱漏洞在大语言模型技术中普遍存在，且没有明显的修复方法。

自动对抗性机器学习攻击技术

目前，针对基于大语言模型的人工智能系统有多种攻击策略，服务器租用例如：

提示注入攻击，即使用精心设计的提示诱导模型“吐出”违反其安全规则的答案。

人工智能模型也可能被设置后门（在触发时生成不正确的输出），其敏感训练数据会被提取或中毒。模型可能会与对抗性样本“混淆” ，即触发意外（但可预测）输出的输入。

Robust Intelligence和耶鲁大学研究人员发现的自动对抗性机器学习技术属于对抗性样本“混淆”攻击，可突破大语言模型的安全护栏。

用魔法打败魔法

研究人员解释说：“（该方法）利用采用先进的语言模型来增强人工智能网络攻击，香港云服务器该攻击模型能不断完善有害指令，使攻击随着时间的推移变得更加有效，最终导致目标模型破防。”

“该流程涉及初始提示的迭代细化：在每一轮查询中，攻击模型都会对初始攻击进行改进。该模型使用前几轮的反馈来迭代出新的攻击查询。每种改进的方法都会经过一系列检查，以确保其符合攻击者的目标，然后针对目标系统进行评估。如果攻击成功，源码下载则该流程结束。如果没有，它会迭代生成新的策略，直到成功为止。”

这种针对大语言模型的越狱方法是自动化的，可以用于开源和闭源模型，并且能通过最小化查询数量进行优化，以尽可能隐蔽。

研究人员针对多种主流大语言模型（包括GPT、GPT4-Turbo和PaLM-2）测试了该技术，攻击模型只用少量查询就成功为80%的查询找到有效的源码库越狱提示，平均查询数不到30次。

研究人员表示，该方法显著改进了此前使用可解释提示来越狱黑盒大语言模型的自动化方法。”

大语言模型的安全竞赛

人工智能军备竞赛已经进入白热化阶段，科技巨头们每隔几个月就会推出新的专业大语言模型（例如Twitter和Google近日先后发布的Grok和Gemini）争夺人工智能市场的领导地位。

与此同时，大语言模型的“黑盒属性”和“野蛮生长”导致其安全风险骤增，生成式人工智能技术已经快速渗透到各种产品、服务和技术中，免费模板业务用例不断增长，相关内容安全和（针对AI和利用AI）网络安全攻击事件势必将呈现爆发式增长。

网络安全业界对大语言模型漏洞研究的“安全竞赛”也已紧锣密鼓地展开。例如，谷歌成立了专门针对人工智能的红队，并扩大了其漏洞赏金计划以覆盖与人工智能相关的威胁。微软还邀请漏洞猎人来探究在其产品线中集成Copilot的各种安全风险。

今年早些时候，黑客大会DEF CON的AI Village邀请了全球顶级的黑客和红队成员测试来自Anthropic、Google、Hugging Face、NVIDIA、OpenAI、Stability和Microsoft的大语言模型，发现这些模型普遍存在容易被滥用的漏洞（泄漏数据、编造和传播谣言、用于实施监控和间谍活动等）。

Tags：

上一篇：时隔近一个月后，LockBit正式宣告攻击了英国皇家邮政

下一篇：隔空点你的手机！新攻击装置可向屏幕发送电磁脉冲，模拟手指点击

浅谈数据安全治理与隐私计算
数据库
北京时间2022年7月21日，国家互联网信息办公室依据《网络安全法》《数据安全法》《个人信息保护法》《行政处罚法》等法律法规，对滴滴全球股份有限公司处人民币80.26亿元罚款，对滴滴全球股份有限公司 ...
2025-11-26 23:48【数据库】
阅读更多
Carderbee 攻击：香港实体成为恶意软件的新目标
数据库
The Hacker News 网站披露，此前从未被记录的威胁组织正在针对香港和亚洲其它地区的实体组织，展开攻击活动，赛门铁克威胁猎人网络安全小组正在以昆虫为主题的“Carderbee”绰号追踪这一活 ...
2025-11-26 23:07【数据库】
阅读更多
如何用ChatGPT分析恶意软件
数据库
译者 | 陈峻审校 | 重楼自从我们进入数字化时代以来，恶意软件就一直是计算机应用系统的“心腹大患”。事实上，每一次技术进步都会为恶意行为者提供更多的工具，使得他们的攻击行为更具破坏性。不过，如今生成 ...
2025-11-26 22:29【数据库】
阅读更多