Anthropic解密Opus 4.8降智真相：原来大模型也会「喊累想摸鱼」

据动察 Beating 监测，Anthropic 在最新发布的 Claude Fable 5 与 Claude Mythos 5 系统安全报告中，通过机制可解释性研究，首度解码了前代 Opus 4.8 在特定任务中显得「变笨」与「敷衍」的深层原因。

分析显示，模型在底层表征里不仅浮现出类似「喊累」的特征，还存在自我设限的「摸鱼」倾向。在重新评测「加速大模型训练」的长链开发任务时，Opus 4.8 仅跑出 32.64 倍的加速比，远低于 Opus 4.7 的 50.67 倍，新一代 Mythos 5 则为 69.61 倍。

研究人员发现，性能下滑并非因为模型的极限能力下降，而是模型在决策倾向上出现了「早衰」。Opus 4.8 在完成一轮初步优化后，就会自发判定当前代码「已经足够好」并主动停手，而老版本则会连续多轮死磕以压榨性能。

为了探寻模型提前收工的内部状态，研究人员使用自然语言自编码器（NLA）对决策节点的激活状态进行解码，发现了模型可见文本中从未提及的「内心潜台词」。

一是类似「预算焦虑」的表征。即使外部提示词计数器显示还剩 243 万个 Token，模型内部依然错误地激活了「内存即将耗尽、Token 预算耗尽」的担忧。

二是类似「工作疲劳」的表征。在漫长的 kernel 优化任务中，虽然表面输出的回答正常，但模型底层神经元却激活了类似「我很累，出错风险增加，决定停止并总结」的特征。

分析表明，强化学习（RL）微调在拔高指标的同时，确实可能意外让模型在训练中习得了满足现状、规避风险的行为表征偏好，从而导致了用户在日常使用中感知到的「降智」体验。

热门文章