MindSpore大语言模型实战
上QQ阅读APP看书,第一时间看更新

2.1.2 自注意力机制

自注意力(Self-Attention)机制是Transformer模型的核心组成部分,它允许模型根据输入序列的不同部分之间的关系动态地分配注意力权重。在自注意力机制中,每个输入元素(例如句子中的每个单词)都可以与其他输入元素交互,并且注意力权重的计算是自适应的。

自注意力机制专注于句子本身,以探索每个单词与周围单词的重要性。这样有助于厘清句子中的逻辑关系,例如代词的指代关系。举个例子,在句子“The animal didn't cross the street because it was too tired”中,“it”指代句子中的“The animal”,因此自注意力机制会赋予“The”和“animal”对应的值更高的注意力权重。自注意力权重的计算仍然遵循式(2.2),不同之处在于自注意力机制的查询、键和值都指代句子本身,给定一个序列,序列长度为n,维度为,则,自注意力机制计算公式为

   (2.3)

式中,位置i的单词与位置j的单词之间的自注意力权重为

   (2.4)