变压金刚基础

变压金刚基础



变换器是一种深度学习模型,采用自我关注机制,对输入数据的每个部分的重要性进行差异化权重。它主要应用于自然语言处理(NLP)[1]和计算机视觉(CV)领域。[2]

与循环神经网络(RNN)类似,变换器设计用于处理顺序输入数据,如自然语言,并应用于翻译和文本摘要等任务。然而,与RNN不同的是,变换器一次性处理全部输入。注意机制为输入序列中的任何位置提供上下文。例如,如果输入数据是自然语言句子,变换器就不必一次处理一个单词。这比RNN实现了更多的并行化,从而缩短了训练时间。[1]

变换器由谷歌大脑团队于2017年提出[1],并且越来越多地成为自然语言处理问题的首选模型,[3]取代了如长期短期记忆(LSTM)等RNN模型。额外的训练并行化允许对更大数据集进行训练。这促使开发了预训练系统,如BERT(Transformers的双向编码表示)和GPT(生成预训练变换器),这些系统使用大型语言数据集(如维基百科语料库和Common Crawl)进行训练,并可针对特定任务进行微调。[4][5]

联系方式


推荐阅读