加密知识一站通
行情·工具·策略

Claude爆火研究漏引华人团队成果,已挨打立正道歉

1M AI News 监测,4 月 2 日 Anthropic 发布了一篇新论文,研究了 Claude 内部的「情绪机制」,在 Sonnet 4.5 中发现了 171 种「情绪向量」。这些情绪会在与之关联的情境中被激活,并且与人类的心理结构和情绪空间相似。

MBZUAI 硕士生 Chenxi Wang 发现,其团队在 2025 年 10 月发表的论文(《LLMs 会「感觉」吗?情绪回路的发现与控制》)才是首个系统研究大语言模型情绪产生内部机制的工作。当她读到 Anthropic 的论文时,第一反应是「这不是我们去年做的吗?」双方的核心区别在于:此前多数研究关注模型识别文本中的情绪(即情绪感知),而双方做的都是研究模型自身生成情绪(即情绪生成/内部机制)。Anthropic 的通讯作者 Jack Lindsey 最初认为双方工作与已有研究重叠,但 Chenxi Wang 逐一阅读并指出区别后,他认可了这一区分。目前,Anthropic 已经更新其论文博客,在「相关工作」部分明确添加了对这一工作的引用,事件以相对友好的方式得到解决。

华人团队的论文中曾提及三个核心发现:

第一,大模型内部确实存在与具体语义无关的、稳定的情绪表示,不同情绪在神经网络浅层就开始形成清晰的分组,比如愤怒和厌恶挨得近、悲伤和恐惧挨得近,与人类直觉一致。

第二,这些情绪机制由少数核心神经元和注意力头主导,通过消融实验发现,只需关闭 2-4 个神经元或 1-2 个注意力头,模型的情绪表达能力就会大幅下降。

第三,团队将这些核心组件整合成跨层的「情绪回路」,直接调节该回路可使模型生成指定情绪的准确率达到 99.65%,远超传统的提示词引导和向量操控方法,即使是之前最难控制的「惊讶」情绪也实现了 100% 准确表达。

该机制在 LLaMA 和 Qwen 等多个模型上均得到验证,证明这是大语言模型的通用规律。

赞(0)
未经允许不得转载:币须知道 » Claude爆火研究漏引华人团队成果,已挨打立正道歉

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址