Transformer 架构入门指南

什么是 Transformer？

Transformer 由 Google 在 2017 年论文《Attention Is All You Need》中提出，彻底改变了 NLP 领域，也是 GPT、BERT 等模型的基础架构。

Self-Attention 允许序列中每个位置关注其他所有位置，计算 Query、Key、Value 三个向量，通过注意力权重聚合信息。

并行运行多组 Attention，每组学习不同的表示子空间，最后拼接并通过线性变换输出，增强模型表达能力。

原始 Transformer 包含编码器和解码器。GPT 系列仅使用解码器；BERT 仅使用编码器。理解这一差异有助于选择合适的预训练模型。