header-langage
简体中文
繁體中文
English
Tiếng Việt
한국어
日本語
ภาษาไทย
Türkçe
扫码下载APP

苹果研究员对Transformer注意力「动了一刀」:让每个token忘掉自己,性能一致更好

1M AI News 监测,苹果机器学习研究科学家 Shuangfei Zhai 发表论文,提出「排他自注意力」。改动很简单:标准 Transformer 中,每个 token 在计算注意力时会把自己的信息也算进去;XSA 强制排除自身位置的贡献,只从上下文中提取信息。直觉上,token 已经知道自己是什么了,注意力机制的价值在于告诉它周围有什么。

实验结果在最大 27 亿参数规模内一致优于标准自注意力,且序列越长优势越明显。Zhai 此前也是 Attention Free Transformer(AFT)的作者,持续在注意力机制替代方案上探索。

举报 纠错/举报
纠错/举报
提交
新增文库
仅自己可见
公开
保存
选择文库
新增文库
取消
完成