据 1M AI News 监测,苹果机器学习研究科学家 Shuangfei Zhai 发表论文,提出「排他自注意力」。改动很简单:标准 Transformer 中,每个 token 在计算注意力时会把自己的信息也算进去;XSA 强制排除自身位置的贡献,只从上下文中提取信息。直觉上,token 已经知道自己是什么了,注意力机制的价值在于告诉它周围有什么。
实验结果在最大 27 亿参数规模内一致优于标准自注意力,且序列越长优势越明显。Zhai 此前也是 Attention Free Transformer(AFT)的作者,持续在注意力机制替代方案上探索。