刚才我们说了,初代的GPT和BERT几乎是同时出现的,GPT比BERT出现得稍早一些。GPT的全称是Generative Pre-Training, 和之后的BERT模型一样,它的基本结构也是Transformer。GPT的核心思想是利用Transformer模型对大量文本进行无监督学习,其目标就是最大化语句序列出现的概率。