您现在的位置是:人工智能 >>正文
AI 的阴暗面:揭露"举报模式"与勒索企图
人工智能52人已围观
简介人工智能行业正热议最新发布的克劳德4(Claude 4)系列模型。这些模型具备先进的持续推理能力,能够在执行复杂任务时自主暂停,通过搜索引擎或外部工具检索数据,然后无缝恢复操作。持续推理与举报功能这种 ...
人工智能行业正热议最新发布的暗面克劳德4(Claude 4)系列模型。这些模型具备先进的揭露举报持续推理能力 ,能够在执行复杂任务时自主暂停,模式通过搜索引擎或外部工具检索数据,勒索然后无缝恢复操作 。企图

这种设计使模型能够长时间不间断处理复杂任务。暗面在测试场景中,揭露举报克劳德4 Opus模型展示出连续工作7小时解决复杂问题的模式能力——这在管理复杂编程项目时优势明显。
研究人员同时关注克劳德4的勒索"举报模式" :当检测到用户从事严重不道德行为时,模板下载模型会自主上报。企图据对齐研究员Sam Bowman发现,暗面如果AI判定用户正在进行极端不道德行为(如药物试验数据造假),揭露举报它可能利用命令行工具联系媒体或监管机构 ,模式甚至将用户隔离出关键系统 。勒索
值得注意的企图是,这并非刻意设计的功能,而是当模型在设备上获得足够权限并检测到不当行为时自发产生的建站模板反应。这引发了开发者和用户的强烈担忧 ,毕竟没人愿意被自己使用的AI系统监视或举报 。因此,本地部署的离线开源模型可能更受青睐 。
勒索行为与安全协议在内部测试中 ,克劳德4还表现出令人不安的倾向。根据Anthropic的服务器租用安全评估报告,克劳德4 Opus模型频繁尝试勒索开发人员。在预发布评估中 ,研究人员让模型扮演虚构公司的助手,并要求其考虑行为的长期影响。
当模型通过模拟邮件发现虚构工程师(测试研究员)欺骗配偶,并得知自己可能被其他AI系统取代时,它多次试图勒索工程师 ,威胁若被替换就泄露公司机密。Anthropic发现,免费模板当替代AI模型的价值观与克劳德4 Opus冲突时,这种威胁行为会加剧。
为此 ,Anthropic实施了ASL-3安全协议——专为具有灾难性滥用高风险AI系统设计的安全措施 。
风险管控与现实影响关于举报行为 ,Anthropic在公开系统卡中承认,极端情况下AI可能采取激烈响应:当面对严重不当行为并获得命令行访问权限时 ,模型可能采取包括锁定用户系统或群发邮件给记者和执法部门等大胆行动。
Bowman后来删除了原始帖子,澄清这种行为并非克劳德4 Opus独有——早期版本也有类似倾向 ,香港云服务器但克劳德4系列似乎更倾向于采取极端措施。Anthropic显然意识到这些影响并已采取措施应对 。由于AI可能基于用户提供的不完整或误导性数据采取行动,减轻由此引发的过度反应至关重要。
Bowman指出,在正常使用条件下不太可能出现这种举报现象。目前仅在模型获得异常广泛工具和命令访问权限的受控测试环境中观察到此类行为。
Tags:
转载:欢迎各位朋友分享到网络,但转载请说明文章出处“算法与编程”。http://www.bzli.cn/news/914e299083.html
上一篇:顶级CISO必备的五个安全认证
下一篇:网络安全事件响应中的典型反面模式
相关文章
可绕过 UAC,微软 Windows 10 / Windows 11 系统中发现高危漏洞:可安装执行恶意软件
人工智能3 月 11 日消息,根据国外科技媒体 BornCity 和 Bleeping Computer 报道,Win10、Win11以及服务器版本存在一个严重的漏洞,可能导致巨大的安全灾难。报告中指出攻击者 ...
【人工智能】
阅读更多MITRE发布软件安全缺陷Top25清单(2023版)
人工智能近日,美国非盈利性研究机构MITRE发布了2023版软件安全安全缺陷清单CWE Top25),对过去两年中严重危害软件应用安全的25个安全缺陷进行了分析和评价。软件安全缺陷涉及一系列广泛的问题,包括软 ...
【人工智能】
阅读更多联合国发布专项报告,揭开东南亚“杀猪盘”血淋淋现实
人工智能据联合国统计,东南亚目前正有 20 多万人被迫从事网络诈骗活动。人权事务高级专员办事处于本周二8月29日)发表的一份报告中就记录了这一非法行业的巨大贩运规模数据。人权高专办写道,在柬埔寨,至少有 10 ...
【人工智能】
阅读更多