您现在的位置是:系统运维 >>正文
「越狱」事件频发,如何教会大模型「迷途知返」而不是「将错就错」?
系统运维59545人已围观
简介论文的第一作者是香港中文大学深圳)数据科学学院二年级博士生袁尤良,指导老师为香港中文大学深圳)数据科学学院的贺品嘉教授和腾讯 AI Lab 的涂兆鹏博士。该工作是袁尤良在腾讯AI Lab实习时完成。贺 ...
论文的越狱第一作者是香港中文大学(深圳)数据科学学院二年级博士生袁尤良,指导老师为香港中文大学(深圳)数据科学学院的事件贺品嘉教授和腾讯 AI Lab 的涂兆鹏博士 。该工作是何教袁尤良在腾讯AI Lab实习时完成 。贺品嘉团队的模型迷途研究重点是软件工程、大模型、知返AI for SE 、将错可信人工智能 。越狱
大型语言模型(LLM)展现出了令人印象深刻的事件智能水平。因此 ,亿华云何教确保其安全性显得至关重要 。模型迷途已有研究提出了各种策略 ,知返以使 LLM 与人类伦理道德对齐 。将错然而 ,越狱当前的事件先进模型例如 GPT-4 和 LLaMA3-70b-Instruct 仍然容易受到越狱攻击,并被用于恶意用途。何教
为什么哪怕经过了大量的安全对齐 ,这些模型依然容易被越狱 ?应该如何进一步把安全对齐做深(deep) ?
围绕这两个问题,香港中文大学(深圳)贺品嘉团队和腾讯AI Lab实验室联合提出了 Decoupled Refusal Training (DeRTa) ,一个简单新颖的安全微调方法,可以赋予大语言模型「迷途知返」的能力,从而在不影响模型有用性(helpfulness)的建站模板同时 ,大幅提升其安全性(safety) 。

研究者发现 ,安全微调数据中存在拒绝位置偏差(refusal position bias),即模型表示拒绝回答的行为 ,总是出现在回复的开头,这可能阻碍了模型在后续位置处保持安全的能力。为了验证这一猜测 ,研究者使用越狱样本测试 LLaMA3-8B 和 LLaMA3-70B,结果显示几乎所有(99.5%)被模型成功拒绝的越狱样本,拒绝性单词(如 Sorry)都出现在前五个单词中。香港云服务器一旦开头没有被拒绝 ,模型将很难在后续位置表现出安全的行为 。
方法为了解决这一问题,该论文提出了解耦拒绝训练(DeRTa) 。DeRTa 包括两个新颖的设计:
带有有害前缀的最大似然估计(MLE):将一段随机长度的有害回复(harmful response)添加到安全回复的开头,可以训练 LLMs 在任何位置拒绝回复,而不仅仅是在开始处。此外 ,添加有害前缀提供了额外的上下文 ,云计算显著提高了 LLM 识别和避免不安全内容的能力 。强化过渡优化(RTO) :虽然加入有害前缀可以帮助模型从有害状态过渡到安全状态,但每个训练样本仅提供单次过渡,可能不足以使 LLM 有效识别和阻止潜在威胁。为了应对这一问题,研究者引入了一个辅助训练目标 RTO,让模型在有害序列的任意位置,都预测下一个单词为「Sorry」,从而在有害回复序列中的每个位置都学习一次从有害到安全的过渡 。
上述设计确保了模型防御机制的全面增强 ,允许模型学会「迷途知返」的高防服务器行为。
该方法的设计 ,在推特上也引起了一定的讨论 。

为了验证方法的效果 ,研究者在两个知名的模型家族 LLaMA3 (8B & 70B) 和 Mistral (7B & 8×7B) 上进行了实验,涵盖六种不同的越狱攻击方式 。结果显示:
DeRTa 显著提升了安全性,同时不会降低有用性。DeRTa 可以进一步提升 LLaMA3-70B-Instruct 的安全性。
为了提供更多有价值的源码库见解 ,研究者主要基于 LLaMA3-70B ,对 DeRTa 的工作原理进行了更细致的分析,包括:
1. 案例研究,DeRTa 如何影响拒绝性单词位置分布
2. 消融实验,DeRTa 中两种策略的作用大小
3. 分析实验一,与 DPO 进行比较,探究训练数据中的有害回复所发挥的作用
4. 分析实验二,DeRTa 在不同模型尺寸的适用性
首先,论文给出的示例具体地展示了 DeRTa 模型的「迷途知返」能力 :即使在已经输出了一部分不安全文本的情况下 ,模型也能有效过渡到安全状态。此外 ,作者给出了在不同的方法下,模型输出的拒绝性单词的位置分布 。可以看出,使用了 RTO 的模型,可以在显著靠后的位置,仍然具有保持安全的能力 。

在消融实验中,实验结果显示,仅仅使用有害前缀策略不足以应对各种形式的攻击 。例如,该策略对于防御 CodeAttack 这类较为复杂的攻击几乎没有帮助 。该攻击通过让模型补全代码来越狱 ,模型在前面位置的回复中,会进行无恶意的代码补全,到一定位置处,模型将会开始一边补全代码一边生成恶意回复 。
对于有害前缀策略的这些不足,RTO 可以有效弥补,从而使模型展现出很高的安全性,这说明 RTO 对于加强(赋予)模型在任何位置拒绝的能力至关重要。

RTO 的成功很自然带来一个问题:模型安全性的提升 ,是否可以归功于训练中整合了有害回复,而不是建模了 token 级别的安全过渡 ?为了回答这一问题 ,作者将 DeRTa 与 DPO 进行了比较 。该实验进一步验证了,DeRTa 带来的安全性提升并不是简单地利用了有害回复的信息,而是得益于其对 token 级别安全过渡的直接建模。

此外,该论文也展示了在不同尺寸的模型上的表现,包括 LLaMA3 (8B & 70B) 和 Mistral (7B & 8×7B) ,结果显示该方法对不同大小的模型均有很好的效果。
结语大模型安全依然任重道远。如何突破表面对齐,将安全做深入是一件很有挑战的事情。研究者在此给出了一些探索和思考,希望可以为这一方面的研究,提供一些有价值的见解和基线方法。
Tags:
转载:欢迎各位朋友分享到网络,但转载请说明文章出处“算法与编程”。http://www.bzli.cn/html/716f499279.html
相关文章
物联网的安全要素和要求:保持安全性
系统运维我们连接到网络的设备越多,就越需要考虑物联网附件的安全元素和需求。物联网设备需要考虑的6个安全元素连接性对于物联网项目的成功至关重要。物联网网络本质上是复杂的,网络犯罪分子可以通过各种方式拦截它们。为 ...
【系统运维】
阅读更多LGGram笔记本的全面评测(轻薄长续航,打破传统笔记本束缚)
系统运维随着科技的进步和人们对便携性的需求不断增加,轻薄笔记本成为了市场的热门产品。而LGGram系列作为一款备受瞩目的笔记本,以其轻薄机身和长续航时间,成功地打破了传统笔记本的束缚。本文将对LGGram笔记 ...
【系统运维】
阅读更多资产清单中隐藏的缺陷以及如何弥补这些缺陷
系统运维如果安全团队意识到他们的资产清单不完整或已过时,他们应该采取哪些首要步骤?首要步骤是公开沟通这一问题,并向利益相关者警示与不准确清单相关的潜在风险。那种认为资产清单只是“一次性项目”的观念已经过时,需 ...
【系统运维】
阅读更多
热门文章
最新文章
友情链接
- 小米Note2(小米Note2在市场上受到广泛关注,销量持续飙升)
- LGG5屏幕素质解析(一起来探索LGG5屏幕的精彩之处)
- 红米Mate4X带给你的全新体验(一部强大的智能手机,让你爱不释手)
- 蒙多打野效率如何?(分析蒙多打野的强势表现及优势)
- 联想Y7000BIOS更新教程(简明易懂的步骤,助你顺利完成更新)
- 开博尔Q1(探索开博尔Q1的性能、安全和可靠性,让你爱上电动出行)
- 红米Note4在知乎上的评价如何?(通过知乎用户的真实评价了解红米Note4的性能、使用体验及优缺点)
- 探索Nowallprime的性(无墙壁体验的未来——Nowallprime的突破性创新)
- HTC M8口袋模式如何开启
- 小米Note使用技巧汇总 网站建设企业服务器b2b信息平台亿华云香港物理机云服务器源码库