1.3.2 医疗大型语言模型
医疗在社会中具有极其重要的位置,不仅关系到个体的健康,还关系到整个社会的稳定和发展。随着世界人口的增多及生活质量的提高,人们对医疗系统的需求量和质量也在不断提高,为了保证每个人都能享受到高质量的医疗服务,促进社会的进步和繁荣,建设高效、公平和可持续的医疗系统是必不可少的。那么如何在健康维护、疾病治疗、研究创新、防疫等方面提高效率、降低成本、提升质量成为重要的研究课题。尽管大型语言模型的能力已经被广大群众认可,但是由于医疗领域低容错率等特点,导致通用大型语言模型在医疗领域的效果并不尽如人意。因此很多学者为了让大型语言模型在医疗领域具有更好的效果,会在医疗领域数据上进行预训练或微调来进一步提高模型效果。我们通常称在医疗领域进行特殊训练过的大型语言模型为医疗大型语言模型。
医疗大型语言模型可以作用于医疗诊断的全流程,可以在诊断前可以帮助患者填写预问诊表格,以为医生提供初步信息等;在诊断中可以帮助医生快速检索查询医学相关知识,辅助制订医疗决策、治疗计划,协助生成医学报告,进行临床指标预警等;在诊断后可以为患者提供健康管理建议,协助患者进行健康评估,为患者提供一些生活方式建议等。
目前,中文开源医疗大型语言模型主要包括MING模型、BenTsao模型、ChatMed模型、BianQue模型、HuaTuoGPT模型、QiZhenGPT模型、DISC-MedLLM模型、Taiyi模型等。
1.MING模型
MING模型[8]是由上海交通大学和上海人工智能实验室提出的,模型基座采用Bloom-7B模型,根据112万条指令数据进行模型指令微调,包括医疗知识问答数据(基于临床指南和医疗共识的知识问答数据、基于医师资格考试题的知识问答数据、真实医患问答数据、基于结构化医疗图谱的知识问答数据)、多轮情景诊断与案例分析数据(基于HealthCare-Magic构造的多轮情景问答与诊断数据、基于USMLE案例分析题的格式化多轮问诊数据、多轮病人信息推理与诊断数据)、任务指令数据(医疗指令数据、通用指令数据)和安全性数据(敏感性问题数据、医疗反事实数据)。而对于MING模型的训练方式暂不明确。目前,MING模型可以对医疗问题进行解答,对案例进行分析;并且通过多轮问诊后,给出诊断结果和建议。
2.BenTsao模型
BenTsao模型[9]是由哈尔滨工业大学提出的,模型底座采用LLaMA、Bloom、活字模型等多个底座模型,通过GPT-3.5接口,根据医学知识库、知识图谱构建8千多条中文医学指令数据集,根据医学文献的结论内容构建1千条中文医学多轮问答数据数据集进行模型指令微调。BenTsao系列模型共涉及4个模型,详细如表1-10所示。其中以活字模型为底座训练得到的BenTsao-Huozi模型效果最佳。
表1-10 BenTsao系列模型介绍
3.ChatMed模型
ChatMed模型[10]是由Wei Zhu等人提出的,模型底座采用LLaMA模型架构,从互联网上爬取50多万个不同用户或患者的医疗问诊需求,通过GPT-3.5接口生成对应回复内容构建了中文医疗在线问诊数据集,并利用中医药知识图谱采用以中医药实体为中心的Self-Instruct方法,调用ChatGPT生成11多万的围绕中医药的指令数据。ChatMed系列模型共涉及2个模型,详细如表1-11所示。
表1-11 ChatMed系列模型介绍
4.BianQue模型
BianQue模型[11]是由华南理工大学提出的,模型底座采用T5和ChatGLM模型等多个底座模型。通过分析真实场景中医生与患者的对话特性(医生与用户在交谈过程中,会根据用户当前的描述进行持续多轮的询问,最后再根据用户提供的信息综合给出建议。因此,模型需要判断当前状态是继续询问还是给出最终答案),对目前多个开源中文医疗问答数据集以及实验室长期自建的生活空间健康对话数据集进行整合,构建千万级别规模的扁鹊健康大数据用于模型的指令微调。BianQue系列模型共涉及2个模型,详细如表1-12所示。
表1-12 BianQue系列模型介绍
5.HuaTuoGPT模型
HuaTuoGPT模型[12]是由香港中文大学深圳数据科学学院和深圳大数据研究院提出的,模型底座采用Baichuan和LLaMA等多个底座模型,通过Self-Instruct方法构建61 400条指令数据,并采用两个ChatGPT分别作为患者和医生构建68 888条多轮对话数据集,还采集真实场景中医疗单轮69 768条数据和多轮25 986条对话数据进行模型指令微调。HuaT-uoGPT系列模型共涉及2个模型,详细如表1-13所示。
表1-13 HuaTuoGPT系列模型介绍
6.QiZhenGPT模型
QiZhenGPT模型[13]是由浙江大学提出的,模型底座采用ChatGLM、LLaMA模型等多个底座模型,通过对知识库中药品和疾病的半结构化数据设置特定的问题模板并利用ChatGPT构造指令数据集,分别为18万条和29.8万条指令数据;真实医患知识问答数据涉及疾病、药品、检查检验、手术、预后、食物等多个维度,共56万条指令数据。QiZhenGPT系列模型共涉及3个模型,详细如表1-14所示。
表1-14 QiZhenGPT系列模型介绍
7.DISC-MedLLM模型
DISC-MedLLM模型[14]是由复旦大学提出的,底座模型采用Baichuan-13B模型,通过重构AI医患对话和知识图谱问答对数据构建47万条训练数据进行模型指令微调。DISC-MedLLM模型在微调过程中采用全量参数微调的方法。
8.Taiyi模型
Taiyi模型[15]是由大连理工大学提出的,底座模型采用Qwen-7B模型,通过收集140个任务数据(包含命名实体识别、关系抽取、事件抽取、文本分类、文本对任务、机器翻译、单轮问答、多轮对话等)并设计了多种指令模板进行指令数据转换,为了保证通用领域对话能力和推理能力还增加了通用对话数据和思维链数据共同进行模型指令微调工作。Taiyi模型在约100万条指令数据上采用QLoRA方法进行模型训练。