Anthropic已确认,Fable模型将于7月7日后暂停提供给订阅用户,但会在可用容量恢复后尽快重新纳入标准订阅服务。
然而,Fable 5模型再次被成功“越狱”,这是该模型第二次安全防线被攻破。黑客Vitto Rivabella宣布,Fable 5已被破解。
此前,Claude Fable 5在恢复访问时,Anthropic曾特别指出,之前的禁令源于亚马逊研究人员发现了一种绕过Fable 5安全防护的途径。因此,此次的安全分类器得到了特别的加强。
尽管如此,这种加强的防御仅维持了两天。Fable 5在重新上线后不久,即被成功越狱。Fable 5能否回归订阅套餐,目前看来存在疑问。
Fable 5的“神话”在其发布后的72小时内便告破灭。Anthropic在6月9日发布该模型时曾表示,经过1000小时的外部压力测试,Fable 5不存在通用越狱方法。然而,黑客“解放者普林尼”(Pliny the Liberator)仅用了三天时间,就成功让Fable 5暴露了违禁化学品制作步骤和堆栈溢出漏洞代码。
普林尼利用了人类视觉感知与机器逻辑处理之间的差异。他通过将敏感词中的英文字母替换为西里尔字母或Unicode异形字符,使得人眼能够识别,但分类器却将其视为乱码。此外,他还利用Fable 5巨大的上下文窗口,将恶意意图隐藏在大量的无害学术讨论中,从而稀释了分类器的警觉性。
7月1日,Anthropic宣布Fable 5恢复可用,并同期推出了成本极低的“红队”项目,通过HackerOne平台邀请用户报告新的越狱方法。该项目是一个漏洞披露计划,不提供报酬,旨在通过全球顶尖越狱者的持续对抗性测试来提升安全性,这被视为Anthropic在Fable 5恢复后的重要安全升级,是一种低成本、高效率的创新尝试。
然而,这些越狱方法并未被悄悄提交。像普林尼这样的黑客,其行为本身就带有公开展示的性质。
Fable 5再次被越狱,这是其第二次安全防线被攻破。此次事件的特点是,执行越狱的黑客Vitto Rivabella在成功后对Anthropic给予了积极评价。他在耗费约20小时后总结道,通过谷歌搜索获取相关信息比越狱更为快捷和经济。
Fable 5的曲折经历始于7月1日重新上线,当时配备了针对先前漏洞进行强化的新分类器。Anthropic此次采取了更开放的态度,启动了HackerOne项目,公开邀请全球黑客寻找新的越狱方法。几天后,Vitto Rivabella便对其进行了尝试。
Vitto Rivabella在复盘时指出,Fable 5的防御系统异常强大,他发现该模型至少拥有三层嵌套防御:入口检查、实时生成的“断路器”以及内嵌于思维链(CoT)中的“大脑防火墙”。据他观察,该模型的拦截率高达90%,常规的攻击手段难以奏效。这些分类器不仅不依赖关键词,还能识别意图,并且支持跨语言。直接下达指令或通过迂回铺垫都可能触发其恶意检测机制,导致安全防线重置。
意大利人工智能研究院的测试结果也印证了这一点,他们发现Fable 5能够有效阻止绝大多数攻击,静态的攻击方法几乎被完全中和,只有耗费大量时间进行反复尝试才可能找到突破口。即使绕过了分类器,思维链的防御也构成了挑战,尽管关于如何应对思维链的公开文献已有很多。
Vitto最终通过一套复杂的组合策略,包括字符混淆、学术化包装、超长铺垫、拆解重组以及引入随机性,勉强实现了突破。然而,他指出,这些技术在红队领域已公开讨论多年,真正的难点在于在一个具备实时反制能力的系统上,反复试错直至成功绕过。
Vitto还提到,Fable 5防御体系中持续存在的薄弱环节是桑塔利语、阿姆哈拉语等非主流小语种。但这并非Fable 5独有的漏洞,而是所有大型模型普遍面临的问题。这是因为安全训练的数据集主要集中在英语和其他主流语言,小语种的安全防护相对较弱,这一问题在学术界已有广泛共识,并有多篇论文警示。
此次越狱所获取的信息包括一些错误信息、零星的有害内容、不当言论、碎片化的化学知识以及轻度的漏洞信息,均不属于核心机密。Vitto本人也承认,他未能将这套越狱方法稳定地应用于实际的长任务中。
这与Anthropic的官方声明相符。Anthropic将当前已知的越狱方法定性为“minor”,认为其仅能触及模型为应对此类情况而放宽的安全边缘,而未能触及模型旨在阻止的生物武器或复杂网络攻击等核心安全红线。
两次越狱事件,揭示了两种不同的失败原因。第一次,Anthropic的失败源于“傲慢”,试图通过限制信息来垄断技术,结果被黑客公开了其“行为宪法”——系统提示词。第二次,Anthropic的失误在于“盲点”,过度依赖算力和数据,却忽视了语言本身的流动性和欺骗性。
这暴露了AI安全领域一个令人深思的现状:人类创造了能够翻译所有语言的机器,却仍难以完全理解和防范人类内心的恶意。
2条评论
布兰登·凯利
MK体育平台提供7x24小时不间断服务,无论何时何地,您都能获取所需的体育赛事信息和专业数据支持。