快讯深度数据 Skill&API

更多

header-langage

苹果研究员对Transformer注意力「动了一刀」：让每个token忘掉自己，性能一致更好

据 1M AI News 监测，苹果机器学习研究科学家 Shuangfei Zhai 发表论文，提出「排他自注意力」。改动很简单：标准 Transformer 中，每个 token 在计算注意力时会把自己的信息也算进去；XSA 强制排除自身位置的贡献，只从上下文中提取信息。直觉上，token 已经知道自己是什么了，注意力机制的价值在于告诉它周围有什么。

实验结果在最大 27 亿参数规模内一致优于标准自注意力，且序列越长优势越明显。Zhai 此前也是 Attention Free Transformer（AFT）的作者，持续在注意力机制替代方案上探索。

纠错/举报

热门文章

43年最惨烈的单月暴跌，黄金历史上每次见顶都是同一个剧本

中东战火重燃加息预期，黄金遭遇43年来最惨烈抛售

这位爆火的北京高中老师江学勤，提前预测了美国的败局

霍尔木兹倒计时开始｜Rewire 新闻早报

链上侦探持续监控

12分钟前

「重仓布局三大市场」巨鲸平仓美布两油对冲头寸210万美元，或转押WTI相对布伦特走弱

30分钟前

Meme币「4」市值回涨至900万美元上方，24小时涨幅达20%

1小时前

美股存储概念股盘前集体下挫，Continue Capital减仓超300万美元MU多单

1小时前

BlockSec：BSC链BCE代币销毁机制存在漏洞，黑客套利约67.9万美元

24H重要资讯

2026-03-23

贝莱德向Coinbase存入839枚BTC和14,802枚ETH

「重仓布局三大市场」巨鲸平仓美布两油对冲头寸210万美元，或转押WTI相对布伦特走弱

千问核心成员离职后阿里首次公开表态：继续开源，现场展示千问万相开源路线图

Meme币「4」市值回涨至900万美元上方，24小时涨幅达20%

纠错/举报

提交

新增文库

仅自己可见

公开

保存

选择文库

新增文库

取消

完成