自注意力机制

自注意力机制 (Self-Attention)

自注意力机制 是 Transformer 的核心组件，它让序列中的每个位置能够同时关注到其他所有位置，从而捕捉全局依赖关系。它是 Transformer 取代 RNN 和 CNN 的关键技术。

假设我们有一句英文：The animal didn't cross the street because it was too tired

当模型处理单词 it 时，它需要知道 it 指代的是 animal 还是 street。

通过自注意力机制：

这样，it 的表示就会「吸收」更多来自 animal 的语义信息，从而正确地建立指代关系。

每个输入向量都会被投影为三组不同的向量：

三者的关系可以类比为搜索引擎：

code2 lines
Query (搜索词)   →   Key (文档索引)   →   Value (文档内容)
         计算相关性分数          加权求和

code1 lines
scores = Q · Kᵀ / √d_k

其中 d_k 是 K/Q 向量的维度，除以 √d_k 是为了防止点积过大导致 softmax 后的梯度过于尖锐。

code1 lines
weights = softmax(scores)

每个位置得到一组非负权重，总和为 1，代表对序列中其他位置的关注程度。

code1 lines
output = weights · V

最后用权重对 V 加权求和，得到当前位置的输出表示。

在实际应用中，Transformer 会并行执行多组独立的注意力计算，每一组称为一个「头」(head)：

code2 lines
MultiHead(Q, K, V) = Concat(head_1, head_2, ..., head_h) · W_O
    其中 head_i = Attention(Q·W_i^Q, K·W_i^K, V·W_i^V)

以 GPT-2 为例，使用 12 个头，每个头的维度是 64，拼接后维度为 768。

相比之下，RNN 的复杂度是 O(n · d²)，CNN 是 O(n · d · k)（k 是卷积核大小）。在短序列下三者差异不大，但随着 n 增大，注意力的 n² 项会成为主导——这也是为什么近年来 Flash Attention、稀疏注意力等优化技术成为关注焦点。

当你把 Transformer 的注意力权重可视化时，会看到非常有意义的模式：

这些模式验证了自注意力确实在学习有用的语言结构。

相关术语：Transformer、微调、RAG