大型语言模型实战指南:应用实践与场景落地
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.2.3 Bloom模型

随着LLM被证明可以仅根据一些示例或提示来完成一些新任务,越来越多的研究人员开始深入研究LLM。但是,训练LLM的成本只有资源充足的组织才能承担。目前,GPT-3等模型没有开放参数,而OPT需要向MetaAI申请使用,因此没有真正实现开源。为此,Hugging Face牵头组织了Big Science项目,并于2022年提出了Bloom(Bigscience large open-science open-access multilingual language model,大科学、大型、开放科学、开源的多语言语言模型)。Bloom涉及46种自然语言和13种编程语言,共计1.6TB的文本数据。任何人都可以在Hugging Face网站上免费下载,并允许商业化使用。

Bloom的结构与GPT-3模型一致,共计1760亿参数量,主要包括70层解码器结构,每层112个注意力头,文本的最大序列长度为2048,在激活函数的使用上采用了GeLU函数,词表大小为250 680,如图1-7所示。在位置信息编码上采用ALiBi位置嵌入策略,它没有向词嵌入层添加位置信息,而是根据Key-Value的距离直接降低注意力分数。在词嵌入层之后,直接加入一个归一化层,从而提高模型训练的稳定性。

图1-7 Bloom结构