大型语言模型实战指南:应用实践与场景落地
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

CHAPTER 1
第1章
大型语言模型基础

ChatGPT模型问世后,立刻在全球范围内掀起了轩然大波。其卓越的效果引发了新一轮AI浪潮,尤其是在零样本或少样本数据情况下,ChatGPT模型也能够达到SOTA(State Of The Art,最高水平)。这一现象使得许多AI从业人员转向大型语言模型(Large Language Model,LLM)的研究。大型语言模型中的“大”,不仅仅是指模型参数量大,还指模型在训练过程中所耗费的资源(数据和算力)量大。虽然目前尚无明确定义规定多少参数量的模型可以被称为大型语言模型,但本书参考了开源社区中的大型语言模型的参数量,暂将拥有10亿以上参数量的预训练语言模型定义为大型语言模型。

目前,大型语言模型已经成为AI从业人员必须掌握的重要知识领域。本章首先讲解大型语言模型的基础架构——Transformer,然后介绍目前常用的通用大型语言模型和领域大型语言模型的技术细节,最后讨论大型语言模型的评估方法,帮助读者更全面地理解大型语言模型的概念和原理。