您现在的位置是：网络安全 >>正文

研究人员发现新方法防御 AI 模型的通用越狱攻击

网络安全5人已围观

简介来自Anthropic保障研究团队的研究人员开发了一种新方法，用于保护人工智能模型免受通用越狱攻击。这种创新方法被称为“宪法分类器”，已在数千小时的人类红队测试和合成评估中表现出了显著的抗攻击能力。通 ...

来自Anthropic保障研究团队的研究御A越狱研究人员开发了一种新方法，用于保护人工智能模型免受通用越狱攻击。发现法防这种创新方法被称为“宪法分类器”，新方型已在数千小时的通用人类红队测试和合成评估中表现出了显著的抗攻击能力。

通用越狱攻击是攻击指攻击者通过精心设计的输入，绕过人工智能模型的研究御A越狱安全防护，迫使模型产生违反其安全准则的发现法防有害回应。源码下载这些攻击可能涉及用长提示信息淹没模型，新方型或者使用不寻常的通用大写方式改变输入风格，尽管经过广泛的攻击安全训练，大型语言模型仍然容易受到此类漏洞利用的研究御A越狱攻击。

宪法分类器的发现法防工作原理

宪法分类器是基于合成数据训练的输入和输出分类器。它们能够过滤掉大多数越狱尝试，新方型同时将过度拒绝率降至最低，免费模板通用并保持适度的攻击计算开销。该系统基于“宪法”——一份定义允许和禁止内容类别的原则清单。

宪法分类器的训练和实施（来源：Anthropic）

以下是其工作原理：

宪法制定：制定一部宪法，明确无害和有害的类别。合成数据生成：根据宪法，生成大量涵盖所有内容类别的合成提示和模型完成内容。这些数据通过翻译成不同语言以及模仿已知越狱风格进行增强。亿华云分类器训练：使用合成数据训练输入和输出分类器，以检测和阻止有害内容。部署：将这些分类器作为保护 AI 模型的安全措施实施。实际测试结果

在一个漏洞赏金计划中，183名活跃参与者花费超过3000小时，试图对保护Claude 3.5 Sonnet的原型系统进行越狱。尽管奖金丰厚，但并未发现任何通用越狱漏洞。不过，该原型系统的过度拒绝率和计算成本较高。云计算

自动化评估结果（来源：Anthropic）

宪法分类器的更新版本在Claude 3.5 Sonnet上进行了测试，使用了1万个合成越狱提示。越狱成功率从86%降至4.4% ，拒绝率仅略有上升（0.38%），额外计算成本适度增加（23.7%）。

虽然宪法分类器为AI模型提供了显著的保护，但要注意的是，它们并非万无一失。研究人员建议使用补充防御措施，源码库并根据新出现的越狱技术不断调整“宪法”。

不过这一突破确实为未来安全部署更强大的 AI 模型带来了希望，减轻了越狱相关的风险，并确保AI系统符合安全原则。

2025年2月3日至2月10日，宪法分类器系统的实时演示将开放供红队测试。此次演示专注于与化学武器相关的查询，并邀请用户尝试越狱，服务器租用以提供对系统改进的宝贵反馈。

参考来源：https://cybersecuritynews.com/researchers-uncovers-new-methods-to-defend-ai-models/#google_vignette

Tags：

上一篇：研究人员：这个Visual Studio漏洞值得警惕

下一篇：记一次完整体系的攻防演练

为监控用户，纽约警方花费数百万美元抓取社交媒体数据
网络安全
据Cyber News披露，美国纽约警方为了监视社交媒体上的用户及内容，花费数百万美元与一家曾被指控不当抓取平台数据的监控公司签订了合同。监控公司 Voyager Labs 的产品声称能使用人工智能分 ...
2025-11-26 22:27【网络安全】
阅读更多
如何制作U盘启动盘（一步步教你制作U盘启动盘，轻松安装系统）
网络安全
在安装或修复操作系统的过程中，使用U盘作为启动盘是一个方便且常用的方法。本文将详细介绍如何利用U盘制作一个可启动的系统安装介质，让您能够轻松地安装或修复操作系统。1.选择合适的U盘：选择一款容量足够大 ...
2025-11-26 21:35【网络安全】
阅读更多
为什么数据中心中光纤管理日益重要
网络安全
如今的数据中心网络在光纤部署方面正在经历前所未有的增长。对更大带宽、更低延迟和前所未有的I/O容量的需求给网络管理人员带来了越来越大的压力。如果实施得当，数据中心光纤管理策略不仅可以保持当前网络的高 ...
2025-11-26 21:20【网络安全】
阅读更多

友情链接

您现在的位置是：网络安全 >>正文

研究人员发现新方法防御 AI 模型的通用越狱攻击

相关文章

为监控用户，纽约警方花费数百万美元抓取社交媒体数据

如何制作U盘启动盘（一步步教你制作U盘启动盘，轻松安装系统）

为什么数据中心中光纤管理日益重要

热门文章

最新文章

友情链接