Claude爆火研究漏引华人团队成果，已挨打立正道歉

据 1M AI News 监测，4 月 2 日 Anthropic 发布了一篇新论文，研究了 Claude 内部的「情绪机制」，在 Sonnet 4.5 中发现了 171 种「情绪向量」。这些情绪会在与之关联的情境中被激活，并且与人类的心理结构和情绪空间相似。

MBZUAI 硕士生 Chenxi Wang 发现，其团队在 2025 年 10 月发表的论文（《LLMs 会「感觉」吗？情绪回路的发现与控制》）才是首个系统研究大语言模型情绪产生内部机制的工作。当她读到 Anthropic 的论文时，第一反应是「这不是我们去年做的吗？」双方的核心区别在于：此前多数研究关注模型识别文本中的情绪（即情绪感知），而双方做的都是研究模型自身生成情绪（即情绪生成/内部机制）。Anthropic 的通讯作者 Jack Lindsey 最初认为双方工作与已有研究重叠，但 Chenxi Wang 逐一阅读并指出区别后，他认可了这一区分。目前，Anthropic 已经更新其论文博客，在「相关工作」部分明确添加了对这一工作的引用，事件以相对友好的方式得到解决。

华人团队的论文中曾提及三个核心发现：

第一，大模型内部确实存在与具体语义无关的、稳定的情绪表示，不同情绪在神经网络浅层就开始形成清晰的分组，比如愤怒和厌恶挨得近、悲伤和恐惧挨得近，与人类直觉一致。

第二，这些情绪机制由少数核心神经元和注意力头主导，通过消融实验发现，只需关闭 2-4 个神经元或 1-2 个注意力头，模型的情绪表达能力就会大幅下降。

第三，团队将这些核心组件整合成跨层的「情绪回路」，直接调节该回路可使模型生成指定情绪的准确率达到 99.65%，远超传统的提示词引导和向量操控方法，即使是之前最难控制的「惊讶」情绪也实现了 100% 准确表达。

该机制在 LLaMA 和 Qwen 等多个模型上均得到验证，证明这是大语言模型的通用规律。

Claude爆火研究漏引华人团队成果，已挨打立正道歉

相关推荐

评论抢沙发

归档

热门文章

近期文章

热门标签

相关推荐

评论 抢沙发

归档

热门文章

近期文章

热门标签

评论抢沙发