1.2.3 Bloom模型_大型语言模型实战指南：应用实践与场景落地-QQ阅读男生武侠网

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

1.2.3 Bloom模型

随着LLM被证明可以仅根据一些示例或提示来完成一些新任务，越来越多的研究人员开始深入研究LLM。但是，训练LLM的成本只有资源充足的组织才能承担。目前，GPT-3等模型没有开放参数，而OPT需要向MetaAI申请使用，因此没有真正实现开源。为此，Hugging Face牵头组织了Big Science项目，并于2022年提出了Bloom（Bigscience large open-science open-access multilingual language model，大科学、大型、开放科学、开源的多语言语言模型）。Bloom涉及46种自然语言和13种编程语言，共计1.6TB的文本数据。任何人都可以在Hugging Face网站上免费下载，并允许商业化使用。

Bloom的结构与GPT-3模型一致，共计1760亿参数量，主要包括70层解码器结构，每层112个注意力头，文本的最大序列长度为2048，在激活函数的使用上采用了GeLU函数，词表大小为250 680，如图1-7所示。在位置信息编码上采用ALiBi位置嵌入策略，它没有向词嵌入层添加位置信息，而是根据Key-Value的距离直接降低注意力分数。在词嵌入层之后，直接加入一个归一化层，从而提高模型训练的稳定性。

图1-7 Bloom结构