您现在的位置是:IT资讯 >>正文
研究人员发现新方法防御 AI 模型的通用越狱攻击
IT资讯2626人已围观
简介来自Anthropic保障研究团队的研究人员开发了一种新方法,用于保护人工智能模型免受通用越狱攻击。这种创新方法被称为“宪法分类器”,已在数千小时的人类红队测试和合成评估中表现出了显著的抗攻击能力。通 ...
来自Anthropic保障研究团队的研究御A越狱研究人员开发了一种新方法,用于保护人工智能模型免受通用越狱攻击。发现法防这种创新方法被称为“宪法分类器”,新方型已在数千小时的通用人类红队测试和合成评估中表现出了显著的抗攻击能力。

通用越狱攻击是攻击指攻击者通过精心设计的输入,绕过人工智能模型的研究御A越狱安全防护,迫使模型产生违反其安全准则的发现法防有害回应 。服务器租用这些攻击可能涉及用长提示信息淹没模型 ,新方型或者使用不寻常的通用大写方式改变输入风格,尽管经过广泛的攻击安全训练,大型语言模型仍然容易受到此类漏洞利用的研究御A越狱攻击。
宪法分类器的发现法防工作原理宪法分类器是基于合成数据训练的输入和输出分类器 。它们能够过滤掉大多数越狱尝试 ,新方型同时将过度拒绝率降至最低 ,云计算通用并保持适度的攻击计算开销 。该系统基于“宪法”——一份定义允许和禁止内容类别的原则清单 。

宪法分类器的训练和实施(来源 :Anthropic)
以下是其工作原理:
宪法制定:制定一部宪法,明确无害和有害的类别 。合成数据生成 :根据宪法,生成大量涵盖所有内容类别的合成提示和模型完成内容。这些数据通过翻译成不同语言以及模仿已知越狱风格进行增强。源码下载分类器训练:使用合成数据训练输入和输出分类器 ,以检测和阻止有害内容。部署:将这些分类器作为保护 AI 模型的安全措施实施 。实际测试结果在一个漏洞赏金计划中 ,183名活跃参与者花费超过3000小时,试图对保护Claude 3.5 Sonnet的原型系统进行越狱。尽管奖金丰厚,但并未发现任何通用越狱漏洞。不过,该原型系统的过度拒绝率和计算成本较高。免费模板

自动化评估结果(来源:Anthropic)
宪法分类器的更新版本在Claude 3.5 Sonnet上进行了测试 ,使用了1万个合成越狱提示。越狱成功率从86%降至4.4%,拒绝率仅略有上升(0.38%) ,额外计算成本适度增加(23.7%)。
虽然宪法分类器为AI模型提供了显著的保护 ,但要注意的是,它们并非万无一失。研究人员建议使用补充防御措施,建站模板并根据新出现的越狱技术不断调整“宪法” 。
不过这一突破确实为未来安全部署更强大的 AI 模型带来了希望 ,减轻了越狱相关的风险,并确保AI系统符合安全原则。
2025年2月3日至2月10日,宪法分类器系统的实时演示将开放供红队测试。此次演示专注于与化学武器相关的查询 ,并邀请用户尝试越狱 ,源码库以提供对系统改进的宝贵反馈 。
参考来源:https://cybersecuritynews.com/researchers-uncovers-new-methods-to-defend-ai-models/#google_vignette
Tags:
转载:欢迎各位朋友分享到网络,但转载请说明文章出处“算法与编程”。http://www.bzli.cn/news/409a399587.html
相关文章
OT安全零死角!Fortinet OT安全平台再升级
IT资讯近日,专注推动网络与安全融合的全球网络安全厂商 Fortinet,宣布对旗下OT安全平台进行新一轮全面升级,此次更新旨在深化安全组网与安全运营SecOps)服务的功能优势,强化与OT供应商的战略 ...
【IT资讯】
阅读更多探索荣耀9的出色音质体验(突破性的声音表现让你心动不已)
IT资讯在如今智能手机的快速发展中,音质已经成为了用户选择手机的一个重要因素之一。荣耀9作为一款备受瞩目的智能手机,在音质方面表现如何呢?本文将深入探讨荣耀9的音质特点,为你解析它在声音表现方面的突破性能。D ...
【IT资讯】
阅读更多电脑小白键盘入门教程(轻松掌握键盘基础操作,快速提升工作效率)
IT资讯在现代社会,电脑已经成为我们生活和工作中不可或缺的工具。然而,对于一些电脑小白来说,键盘操作可能是一项比较困难的技能。本文将为大家提供一份以电脑小白为主要对象的键盘入门教程,帮助你轻松掌握键盘基础操作 ...
【IT资讯】
阅读更多
热门文章
最新文章
友情链接
- 三星5830耳机的音质和舒适度如何?(探索三星5830耳机的声音表现和佩戴体验)
- 服务器端渲染技术架构:优化Web应用性能
- 数据中心如何与公用事业公司合作以提高电力可用性
- 协同运力、算力、存力,加速迈向智能世界
- 系统光盘安装详细教程——让你轻松搭建个性化操作环境(从零开始,一步步教你如何使用系统光盘安装系统)
- 2025年数据中心技术趋势展望:异构计算替代通用计算,液冷散热成为“标配”
- BenQXL2730(了解BenQXL2730的特点与优势,打造无与伦比的视觉体验)
- 全面了解数据中心的能源消耗!
- 全新Dell PowerEdge服务器支持从数据中心到边缘的工作负载
- 揭穿数据中心的五个神话 b2b信息平台源码库企业服务器网站建设亿华云香港物理机云服务器