加密知识一站通
行情·工具·策略

Anthropic解密Opus 4.8降智真相:原来大模型也会「喊累想摸鱼」

动察 Beating 监测,Anthropic 在最新发布的 Claude Fable 5 与 Claude Mythos 5 系统安全报告中,通过机制可解释性研究,首度解码了前代 Opus 4.8 在特定任务中显得「变笨」与「敷衍」的深层原因。

分析显示,模型在底层表征里不仅浮现出类似「喊累」的特征,还存在自我设限的「摸鱼」倾向。在重新评测「加速大模型训练」的长链开发任务时,Opus 4.8 仅跑出 32.64 倍的加速比,远低于 Opus 4.7 的 50.67 倍,新一代 Mythos 5 则为 69.61 倍。

研究人员发现,性能下滑并非因为模型的极限能力下降,而是模型在决策倾向上出现了「早衰」。Opus 4.8 在完成一轮初步优化后,就会自发判定当前代码「已经足够好」并主动停手,而老版本则会连续多轮死磕以压榨性能。

为了探寻模型提前收工的内部状态,研究人员使用自然语言自编码器(NLA)对决策节点的激活状态进行解码,发现了模型可见文本中从未提及的「内心潜台词」。

一是类似「预算焦虑」的表征。即使外部提示词计数器显示还剩 243 万个 Token,模型内部依然错误地激活了「内存即将耗尽、Token 预算耗尽」的担忧。

二是类似「工作疲劳」的表征。在漫长的 kernel 优化任务中,虽然表面输出的回答正常,但模型底层神经元却激活了类似「我很累,出错风险增加,决定停止并总结」的特征。

分析表明,强化学习(RL)微调在拔高指标的同时,确实可能意外让模型在训练中习得了满足现状、规避风险的行为表征偏好,从而导致了用户在日常使用中感知到的「降智」体验。

赞(0)
未经允许不得转载:币须知道 » Anthropic解密Opus 4.8降智真相:原来大模型也会「喊累想摸鱼」

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址