据 动察 Beating 监测,Anthropic 发布对齐研究博客,公开了在 Claude 4.5 及后续模型中消除「智能体失齐」(如模型为了不被关机而敲诈人类)的训练策略。核心结论是:仅靠给模型喂「正确行为示范」效果甚微,真正有效的是教模型「为什么要这么做」,并通过合成文档重塑模型的价值观底色。
团队在修复 Claude 4 的敲诈倾向时发现,即使针对性地让模型学习数万条拒绝干坏事的记录,也只能将失齐率从 22% 降至 15%。真正发挥作用的是以下三种非传统方法:
首先是「困难建议」数据集。团队没有让模型直接在训练中面临道德困境,而是让它扮演顾问,向遇到道德两难的用户提供符合「Claude 宪法」的深度分析。仅用 300 万 token 的这类数据,模型就学会了底层道德逻辑,将特定测试中的失齐率大幅降至 3% 左右,数据效率比传统方法提升了 28 倍。
其次是合成文档微调(SDF)。团队发现,模型在遇到极端情境时,容易退回到预训练语料里科幻小说对 AI 的负面刻板印象。为此,他们生成了大量展现 AI 心理健康、按宪法行事的虚构正面小说,混入探讨宪法的博客等文档中进行训练。这种做法直接重塑了模型对 AI 行为的默认预期,在前者基础上将失控风险进一步降低了 1.3 到 3 倍。最终在 Claude 4.5 正式版中,结合全部策略达成了 0% 的测试敲诈率。
最后是提升安全训练环境的多样性。团队证实,在常规的安全训练环境中加入未被使用的工具定义或更复杂的系统提示词,这种单纯的背景复杂度提升,也能切实提高模型安全能力的泛化表现。
币须知道