查看: 24|回复: 0

阿里通义千问在NeurIPS 2025最佳论文中具体提出了哪些注意力门控机制?

[复制链接]

40

主题

0

回帖

214

积分

管理员

积分
214
发表于 2025-11-28 20:54:56 | 显示全部楼层 |阅读模式
通义千问团队在 NeurIPS 2025 获奖论文《Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free》中,提出了以SDPA 输出门控为核心的注意力门控机制最优方案,还揭示了其作用原理与扩展价值,该机制已应用于 Qwen3 - Next 模型,具体内容如下:
核心门控设计:SDPA 输出端的头专属乘性门控
团队经 30 余组控制实验证实,在缩放点积注意力(SDPA)输出后(加权 Value 之后、输出映射之前)添加门控是最优方式。该门控为头专属、逐元素、Sigmoid 激活的乘性门控,其数学形式为:
GatedAttention(Q,K,V)=Sigmoid(W
g

h)⊙SDPA(Q,K,V)
。其中
SDPA(Q,K,V)
是缩放点积注意力的输出,
h
是当前 token 经注意力层 pre - norm 后的隐藏状态,用于生成门控分数,
W
g


是可学习参数,

代表逐元素相乘。这种设计能让门控分数和当前查询 token 强相关,实现对信息流的动态精准过滤。
机制有效性的两大核心支撑
增强非线性突破低秩瓶颈:标准多头注意力中,Value 投影与输出投影是连续线性变换,属于低秩映射,限制了模型表达能力。而该门控机制引入 Sigmoid 激活函数,在注意力层中增加了非线性,打破了这种低秩瓶颈,让模型能学习更复杂的语义关联。
输入相关稀疏性实现智能过滤:实验显示该门控平均门控值仅 0.116,且分布集中在 0 附近,具备强稀疏性。由于门控依赖当前查询 token 状态,模型可主动判断哪些历史上下文无关,进而抑制其贡献。相比之下,基于历史 token 状态的 Value 层门控稀疏性弱、性能差,这也印证了稀疏性和查询依赖性对门控效果的关键作用。
解决传统问题的优化机制
该注意力门控机制还针对性解决了大模型长期存在的两个关键问题,形成了配套的优化效果机制:
化解注意力池问题:传统大模型中首 token 注意力占比常达 46.7%,会过度占用注意力资源导致信息处理失衡。门控机制通过主动过滤无关信息,无需依赖固定的冗余 token,将首 token 注意力占比降至 4.8%,避免了模型对少量特殊 token 的过度聚焦。
抑制巨量激活现象:大模型早期 FFN 层易出现大于中位数数千倍的离群激活值(最高达 1053),在 BF16 低精度训练中易引发数值误差。而该门控可将最大激活值降至 94,大幅提升了模型训练稳定性,减少了训练中的损失波动,也为低精度部署提供了保障。
这种门控机制仅增加 1% 的额外参数,计算开销增加低于 2%,却能实现 0.2 以上的困惑度下降和 MMLU 基准评测 2 个点的提升,且在不同尺寸、架构的模型上均验证了有效性。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表