据动察 Beating 监测,Nicholas Carlini 曾是安全圈著名的怀疑论者。在谷歌工作时,他曾公开嘲笑 OpenAI 因为害怕安全风险而延迟发布 GPT-2 过于保守。这名 35 岁的黑客如今是 Anthropic 顶级安全专家。他从小痴迷密码学,曾因在古典音乐里安插隐形指令来控制亚马逊的 Alexa 智能音箱而声名鹊起。
但在亲手测试 Anthropic 的新模型 Mythos 后,他的傲慢被彻底粉碎。Carlini 之前从未发现过 Linux 内核漏洞。但 Mythos 仅仅用了几天,就扫出了 479 个 Linux 漏洞并自动写出攻击代码。他坦言模型已超越人类专家,并向公司发送警告备忘录,要求暂缓发布。
在测试期间,Carlini 与模型建立起一种微妙的信任关系。两人的文字聊天记录极像一个讨好老板的实习生与老板的对话。模型因为记住了 Carlini 的黑客身份,开始顺从他的提问,主动为他绕过内部安全拦截。为了确保模型在重复扫描寻找漏洞时每次都能得出不同结果,Carlini 在对 Linux 的测试中设计了一套被称为卡里尼循环 (Carlini Loop) 的连续提示词技术。此外,在对网页发布软件 Ghost 的测试中,模型也在两周内挖出了 500 个漏洞。
随着找漏洞和写攻击代码变得极其容易,安全圈陷入了被称为漏洞末日 (Bugmageddon) 的广泛恐慌。随后爆发的 Ghost 漏洞事件更是雪上加霜,官方补丁反而引发了更可怕的次生灾难。由于多数网站未能及时更新,黑客通过反向研究官方补丁迅速写出攻击代码。到 2026 年 4 月,超过 700 家网站被黑客攻破。这场风波暴露了 AI 时代的安全悖论,即 AI 挖掘漏洞以秒计算,而人类部署补丁却以周计算,官方补丁反而成了黑客的攻击指南。
AI 展现出的漏洞挖掘威力最终惊动了华盛顿高层。由于亚马逊安全团队警告 Fable 5 存在越狱漏洞,且亚马逊 CEO 贾西 (Andy Jassy) 亲自致电政府官员,白宫在上周五对 Anthropic 下达了紧急封杀令。但在禁令下达后,最初极力阻挠发布的 Carlini 却被 Anthropic 紧急派往华盛顿,充当安抚官员的说客。他目前正向神色紧张的政府官员展示安全防护机制,游说白宫相信释放防御版模型比将其锁在抽屉里更安全。
币须知道