通义千问团队在 NeurIPS 2025 获奖论文《Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free》中,提出了以SDPA 输出门控为核心的注意力门控机制最优方案,还揭示了其作用原理与扩展价值,该机制已应用于 Qwen3 - Next 模型,具体内容如下:
核心门控设计:SDPA 输出端的头专属乘性门控
团队经 30 余组控制实验证实,在缩放点积注意力(SDPA)输出后(加权 Value 之后、输出映射之前)添加门控是最优方式。该门控为头专属、逐元素、Sigmoid 激活的乘性门控,其数学形式为:
GatedAttention(Q,K,V)=Sigmoid(W
g
h)⊙SDPA(Q,K,V)
。其中
SDPA(Q,K,V)
是缩放点积注意力的输出,
h
是当前 token 经注意力层 pre - norm 后的隐藏状态,用于生成门控分数,
W
g