什么是 Transformer?
Transformer 由 Google 在 2017 年论文《Attention Is All You Need》中提出,彻底改变了 NLP 领域,也是 GPT、BERT 等模型的基础架构。
Self-Attention 机制
Self-Attention 允许序列中每个位置关注其他所有位置,计算 Query、Key、Value 三个向量,通过注意力权重聚合信息。
Multi-Head Attention
并行运行多组 Attention,每组学习不同的表示子空间,最后拼接并通过线性变换输出,增强模型表达能力。
Encoder-Decoder 结构
原始 Transformer 包含编码器和解码器。GPT 系列仅使用解码器;BERT 仅使用编码器。理解这一差异有助于选择合适的预训练模型。