变压器基础知识

变压器基础知识



transformer 是一种深度学习模型,它采用自我注意的机制,对输入数据的每个部分的重要性进行差分加权。它主要用于自然语言处理 (NLP)[1] 和计算机视觉 (CV) 领域。[2]

与递归神经网络 (RNN) 一样,转换器旨在处理顺序输入数据,例如自然语言,并应用于翻译和文本摘要等任务。然而,与 RNN 不同的是,变压器一次处理整个输入。attention 机制为 input sequence 中的任何位置提供上下文。例如,如果输入数据是自然语言句子,则转换器不必一次处理一个单词。这允许比 RNN 更多的并行化,从而减少训练时间。[1]

Transformers 于 2017 年由 Google Brain 的一个团队推出[1],并日益成为 NLP 问题的首选模型,[3] 取代了长短期记忆 (LSTM) 等 RNN 模型。额外的训练并行化允许在更大的数据集上进行训练。这导致了预训练系统的发展,例如 BERT (Bidirectional Encoder Representations from Transformers) 和 GPT (Generative Pre-trained Transformer),这些系统使用大型语言数据集(如 Wikipedia Corpus 和 Common Crawl)进行训练,并且可以针对特定任务进行微调。[4][5]

联系我们


推荐阅读