Attention 机制 是深度学习中一种非常重要的技术,特别在自然语言处理(NLP)、计算机视觉(CV)和语音处理等任务中得到了广泛应用。其主要目的是让模型能够在处理序列数据时,有选择地关注输入序列的不同部分,从而更好地捕捉长期依赖关系和上下文信息。Attention 机制已成为现代深度学习模型,尤其是 Transformer 结构的核心组成部分。
1. Attention 机制的基本思想
在传统的 Seq2Seq 模型中,编码器将整个输入序列压缩为一个固定长度的上下文向量,并且解码器依赖这个固定向量生成输出序列。这个方法在处理长序列时存在一定的局限性,因为固定长度的向量很难充分表示整...