2.1.2 自注意力机制_MindSpore大语言模型实战-QQ阅读男生武侠网

上QQ阅读APP看书，第一时间看更新

2.1.2　自注意力机制

自注意力（Self-Attention）机制是Transformer模型的核心组成部分，它允许模型根据输入序列的不同部分之间的关系动态地分配注意力权重。在自注意力机制中，每个输入元素（例如句子中的每个单词）都可以与其他输入元素交互，并且注意力权重的计算是自适应的。

自注意力机制专注于句子本身，以探索每个单词与周围单词的重要性。这样有助于厘清句子中的逻辑关系，例如代词的指代关系。举个例子，在句子“The animal didn't cross the street because it was too tired”中，“it”指代句子中的“The animal”，因此自注意力机制会赋予“The”和“animal”对应的值更高的注意力权重。自注意力权重的计算仍然遵循式（2.2），不同之处在于自注意力机制的查询、键和值都指代句子本身，给定一个序列，序列长度为n，维度为，则，自注意力机制计算公式为

（2.3）

式中，位置i的单词与位置j的单词之间的自注意力权重为

（2.4）

本周热推：

人工智能十万个为什么：热AI冷知识开启创意之门：AIGC创作一本通人人都能懂的人工智能 AI源码解读：推荐系统案例（Python版）深度学习在医学图像中的应用