注意力机制
深度学习中的「注意力(attention)」概念可以追溯到一种用于帮助循环神经网络(RNN)处理更长序列或句子的技术。举个例子,假如我们需要将一个句子从一种语言翻译到另一种语言。逐词翻译的操作方式通常不可行,因为这会忽略每种语言独有的复杂语法结构和习惯用语,从而导致出现不准确或无意义的翻译结果。 而注意力机制让模型在每个时间步骤都能访问所有序列元素。其中的关键在于选择性,也就是确定在特定上下文中哪些词最重要。
Transformer 框架及其核心组成部分——自注意力( Self-Attention )机制,已经成为一种革命性的架构,对序列建模任务产生了深远的影响。自从 Vaswani 等人在 2017 年的论文《Attention is All You Need》中首次提出以来,Transformer 框架已经成为了多种复杂任务的基石,包括机器翻译、文本生成、语音识别以及图像处理等。
对于自注意力机制,我们可以这么看:通过纳入与输入上下文有关的信息来增强输入嵌入的信息内容。换句话说, 自注意力机制让模型能够权衡输入序列中不同元素的重要性,并动态调整它们对输出的影响 。这对语言处理任务来说尤其重要,因为在语言处理任务中,词的含义可能会根据句子或文档中的上下文而改变。