加密知识一站通
行情·工具·策略

苹果研究员对Transformer注意力「动了一刀」:让每个token忘掉自己,性能一致更好

1M AI News 监测,苹果机器学习研究科学家 Shuangfei Zhai 发表论文,提出「排他自注意力」。改动很简单:标准 Transformer 中,每个 token 在计算注意力时会把自己的信息也算进去;XSA 强制排除自身位置的贡献,只从上下文中提取信息。直觉上,token 已经知道自己是什么了,注意力机制的价值在于告诉它周围有什么。

实验结果在最大 27 亿参数规模内一致优于标准自注意力,且序列越长优势越明显。Zhai 此前也是 Attention Free Transformer(AFT)的作者,持续在注意力机制替代方案上探索。

赞(0)
未经允许不得转载:币须知道 » 苹果研究员对Transformer注意力「动了一刀」:让每个token忘掉自己,性能一致更好

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址