5.1 GPT-2的基本原理