Attention 机制的本质是对输入序列中的信息进行加权求和,其核心在于通过查询(Query)、键(Key)和值(Value)三个向量来计算注意力权重 。
-
向量生成:输入序列中的每个元素都会映射为 Q、K、V 三个向量,其中 Q 代表当前关注点,K 代表被关注点的特征,V 代表被关注点的实际内容 。
-
权重计算:通过计算 Q 与 K 的点积来衡量相关性,经过缩放和 Softmax 函数归一化后得到注意力权重,公式如下 :
Attention(Q,K,V)=softmax(QKTdk)VAttention(Q,K,V)=softmax(dkQKT)V
-
信息聚合:利用计算出的权重对 V 进行加权求和,得到融合了上下文信息的新表示,使模型在处理每个词时都能“看到”序列中的其他相关部分 。
2.类型分类
在大模型架构中,Attention 机制演化出了多种形式以适应不同的任务需求,主要包含以下几种类型 :
自注意力机制(Self-Attention):定义:序列内部元素之间的注意力计算,Q、K、V 均来自同一个输入序列 。
作用:捕捉序列内部的长距离依赖关系,例如句子中相隔较远的词语之间的语法或语义联系 。
多头注意力机制(Multi-Head Attention):
定义:将自注意力机制并行执行多次,每个“头”学习不同的注意力模式,{BANNED}{BANNED}{BANNED}最佳佳佳后拼接结果 。
作用:使模型能同时关注序列的不同方面,如同时关注语法结构和语义信息,增强模型的表达能力 。
交叉注意力机制(Cross-Attention):
定义:通常出现在解码器中,Q 来自一个序列(如目标语言),K 和 V 来自另一个序列(如源语言)。
作用:实现不同序列之间的信息交互,常用于机器翻译等任务中整合编码器输出的相关信息 。??
技术优势与演进。
3.技术优势
相比传统的循环神经网络(RNN)和卷积神经网络(CNN),Attention 机制在大模型中展现出显著的技术优势,并持续推动架构演进 :
并行计算能力:
Attention 机制的计算主要基于矩阵乘法,支持并行化处理,所有词可以同时进入模型进行计算 。
相比 RNN 的串行处理,大幅提高了模型的训练和推理速度,适应了大规模数据预训练的需求 。
长距离依赖捕捉:
直接计算输入序列中任意两个元素之间的关系权重,不受序列长度限制,有效解决了 RNN 中的梯度消失问题 。
在处理长文本时,能准确将相隔较远的相关内容联系起来,提升文档分类、问答等任务的效果 。
架构持续优化:
2026 年,清华大学黄高 Leap Lab 团队与千问团队提出 SiameseNorm,旨在耦合 Pre-Norm 与 Post-Norm 的优势,解决深度失效与训练不稳定问题 。
注意力机制已扩展至多模态领域,如文本引导式视觉场景感知,通过全局交互提升图像分割与场景理解能力 。