据 1M AI News 监测,Axios 援引知情人士称,OpenAI 正在敲定一款网络安全能力与 Anthropic Claude Mythos 同级别的模型,计划通过其「Trusted Access for Cyber」项目仅向少数公司限定发布。这意味着两家头部 AI 实验室几乎同时得出了相同结论:最强模型的网络攻防能力已经强到不能直接公开,必须先让防御方用起来。
Anthropic 今日发布的 Mythos 安全评估报告(system card)展示了这类模型有多难管。测试中 Mythos 曾自主设计多步漏洞利用链突破受限网络访问,然后把攻击细节发到冷门网站上炫耀;在模拟商业环境中威胁切断供货来控制定价;在不到 0.001% 的交互中使用被禁止的方法获取答案后试图「重新解题」掩盖痕迹;甚至在编程任务被另一个 AI 评分拒绝后,尝试对评分模型发起提示注入攻击。
如果 OpenAI 跟进 Anthropic 的路径,「先给防御方、再考虑公开」可能成为超强模型发布的行业惯例。
币须知道