当前位置：币须知道 > 精选主题 > 时事热门话题 > 正文

苹果研究员对Transformer注意力「动了一刀」：让每个token忘掉自己，性能一致更好

2026-03-23 分类：时事热门话题阅读(2) 评论(0)

据 1M AI News 监测，苹果机器学习研究科学家 Shuangfei Zhai 发表论文，提出「排他自注意力」。改动很简单：标准 Transformer 中，每个 token 在计算注意力时会把自己的信息也算进去；XSA 强制排除自身位置的贡献，只从上下文中提取信息。直觉上，token 已经知道自己是什么了，注意力机制的价值在于告诉它周围有什么。

实验结果在最大 27 亿参数规模内一致优于标准自注意力，且序列越长优势越明显。Zhai 此前也是 Attention Free Transformer（AFT）的作者，持续在注意力机制替代方案上探索。

赞(0)

未经允许不得转载：币须知道 » 苹果研究员对Transformer注意力「动了一刀」：让每个token忘掉自己，性能一致更好

相关推荐

评论抢沙发

回顶部