2.2 医疗大数据的治理
医疗机构的信息化建设以业务流程、医保支付和医管政策为核心驱动力,产生的数据是有客观限制的。如医保处方规定的出院带药最长天数、跨科开药限制等因素导致开单医生不能如实开具反映实际情况的处方;分工细化,数据价值链路过长,导致前端缺乏数据生产动力;数据生产者缺乏对数据对象进行完整和精确描述的能力,导致关键信息缺失,以及标准化程度差的特点;信息系统难以学习和使用,缺少防错设计,导致人为差错问题。因此,在二次利用的价值充分体现之前,数据的完整性、准确性、一致性、关联性、规范性等方面的质量挑战将长期存在。
如果数据不能及时进行结构化、标准化的治理和分类存储,那么带来的存储成本也是巨大的。前面已经提到过,到2020年,数据存储将达到44ZB,而其中有价值的数据仅有1.5%。如果不能及时发掘出其他数据的有效价值,那么垃圾数据将会过多地占据企业的存储成本。
医疗数据的治理分成两种,一种是前治理,一种是后治理。
后治理是将已经存储在数据平台的医疗数据质量问题,通过清洗、校验、脱敏等常见方法,结合二次应用需求,对数据的结构化、标准化进行数据质量的提升和优化。基于海量存储和计算平台的集成能力,大数据平台应覆盖元数据管理、文件管理、检索设计、节点任务、流程任务、任务调度、运行监控等功能,支撑后治理过程中数据的基础处理。
在治理过程中,需要基于通用标准和临床基础字段集,把症状、疾病生命体征、家族史、婚育史、检验、检查、手术、输液、药品医嘱等文字内容进行结构化处理,对结构化和非结构化数据、集中式和分布式数据进行统一建模,提取临床、科研分析所需特征,同时完成重点概念的标准化和统一描述。后治理数据基础差、要求高、流程和环节复杂,涉及的自动化和人工处理的工作量极其巨大,二次污染难以避免,需建立针对数据处理环节的质控流程和工具。通过溯源工具,追溯每个处理后数据与原生数据的血缘关系,以及定位和处理过程中引入的新问题。
前治理是后治理能力、经验和治理工具到医疗机构的向前延伸,以原生数据质量问题的评价为基础,解决数据在医疗业务信息系统中生产、传输、转化、存储等环节中产生的质量问题。前治理可以显著提升医疗数据质量。
案例
医渡云数据智能平台DPAP
医渡云利用数据人工智能技术,构建了可追溯、可监管的医学数据智能平台,该平台数据处理量大、数据完整度高、开发流程透明,帮助政府、医院和整个产业界充分挖掘医疗大数据智能化政用和民用价值,建立可覆盖全国、统筹利用、统一接入的医疗行业大数据生态平台,如图2-3所示。
医渡云已与全国700余家医疗机构、近100所顶级医院建立战略合作,为医院集成融合了跨越10余年的3 亿多名患者、12 亿人次的医学数据,覆盖了30余类重大病种,建立了3 000多个专科疾病模型、2 000万个标准化字段,实现了医院近200种系统、几百个厂商的多种数据、全量全周期的采集与数据结构化、标准化处理,可以说是在充分发挥“医疗大脑”的作用下,构建了中国数据处理量最大、数据完整度最高、开发流程最透明的可追溯、可监管的医学数据智能平台。
在与数十家顶级医院的建设合作中,医渡云数据智能平台形成了一套成熟可控的方法论和一支经验丰富的数据抽取、清洗、汇聚的团队,能做到在完全可控的实施成本和周期的要求下,以人工和自动的方式适配多源异构的数据源,自定义数据处理流程以及智能映射等工作。
该平台支持并行计算基础架构或混合式架构,可以基于传统分布式网络和云计算平台等多种模式部署,支持大数据计算资源管理,支持资源预约、排队、按优先级抢占,支持资源占用分析、计算瓶颈分析,使资源得到更充分利用。另外,架构还配备了多种算法库,具备大数据存储访问及分布式计算任务调度等功能,支持多维索引数据的深度搜索、过滤、聚合、统计分析和全文检索等功能,支持图形化界面大数据查询引擎,方便非技术人员利用大数据平台进行统计分析工作。
图2-3 医渡云数据智能平台
案例
阿里云数据中台
海量的医疗大数据来自于各个业务信息子系统,数据的标准化程度低,在完成数据收集之后,随后就面向后续的数据清洗和加工步骤。如何把这些海量数据按照统一的标准进行清洗,是很多行业和企业现在面临的最大困境。阿里云数据中台的数据ODS层设计包含了三个特性:其一,数据同步功能,支持结构化数据增量或全量同步到ODPS[3];其二,实现全结构化数据转换,能够将非结构化数据(如日志)进行结构化处理后再存储;其三,支持历史数据的积累和清洗,能根据数据业务需求及稽核审计要求保存信息。总结阿里云数据中台的作用和功能如下,如图2-4所示。
全域数据采集与引入:以需求为驱动,以数据多样性的全域思想为指导,采集与引入全业务、多终端、多形态的数据。
标准规范数据架构与研发:统一基础层、公共中间层、应用层的数据分层架构模式,通过数据指标结构化、规范化的方式实现指标口径统一。
连接与深度萃取数据价值:形成以业务核心对象为中心的连接和标签体系,深度萃取数据价值。
统一数据资产管理:构建元数据中心,通过资产分析、应用、优化、运营四方面来看清数据资产、降低数据管理成本、追踪数据价值。
统一主题式服务:构建服务元数据中心和数据服务查询引擎,面向业务统一数据出口与数据查询逻辑,屏蔽多数据源与多物理表。
图2-4 阿里云数据中台的医疗大数据解决方案