1.3 医疗大数据的发展
医疗大数据行业以数据规模为基础,且在政策和资本的鼓励下,部分应用场景进入市场启动期,如健康管理、辅助决策(全科辅助决策、影像病理辅助诊断等)、医疗智能化等。随着医疗大数据/AI技术长期的应用实践探索,产品不断更新完善,预估2~5年内,产品将首先在B端客户中进行推广。随后,伴随软件友好度和准确度的上升,在B端客户使用的影响下,C端市场将展开竞争。
医疗大数据主要分为院前数据、院中数据、院后数据三大部分内容。院前数据包括患者的诊疗行为、生活习惯等,这些数据通过移动端收集。院后数据,主要由诊后管理系统进行数据收集。电子病历毫无疑问属于院中数据,也就是临床诊疗数据中最核心的部分。
1.3.1 医疗大数据的发展阶段
电子化、结构化、标准化、区域化,是医疗大数据发展的四个阶段,如图1-1所示。
图1-1 医疗大数据发展的四个阶段
第一阶段,纸质病历的电子化。在过去,纸质的病历必须由医生进行手工填写,只要有三处涂改,就要重写,耗时又耗力。数据的电子化,把原本手写的数据用电子化的方式储存起来。这样一来,医生便能通过计算机快速实现所有操作。
第二阶段,数据结构化。由于不同医生书写的病历各不相同,因此病历数据的规范成为重中之重。结构化电子病历的出现,能够很好地解决这个问题。不仅方便医生抓取一些字段做科学分析,同时也规范了医生书写电子病历的习惯,便于后期查阅。
第三阶段,数据标准化。随着医院信息化的发展,临床信息数据化逐渐成形,但是由于系统模块众多、标准不统一,使数据无法有效串联,在院内成为孤岛。各个科室系统之间存在着信息共享和相互利用的需求,而实现数据共享和互通的前提,是各个系统之间的数据交互必须遵循标准的规范。对此,国家相继发布了《电子病历基本架构与数据标准》《电子病历共享文档规范》等指导性文件。不少医院信息系统参与互联互通成熟度测评,为日后数据应用奠定基础。
第四阶段,数据区域化。建立区域医疗资源信息平台。过去,不同医院的电子病历系统各不相同。健康医疗大数据和云技术的发展,可以让单个医院摆脱数据孤岛的情况,数据区域化成为这个阶段的核心。不同医院不仅需要互联互通,还需要为患者建立全生命周期的健康大数据。这样一来,患者在不同医院诊疗过的数据,都可以融合在一起,如图1-2所示。
结构化电子病历,是健康医疗大数据应用的基础。医院在科研时,需要把数据按字段进行分类。如性别、年龄、疾病诊断,这些数据都是可以结构化的。在病历里,这类信息十分零散,不同的医生表达的方法也不尽相同。结构化电子病历不仅可以规范诊疗行为,还便于医生进行科研分析和利用人工智能进行数据识别、学习和数据的深度挖掘。
图1-2 区域医疗大数据平台的架构
1.3.2 医疗大数据的爆发
在过去的十年里,随着电子病历的实施,以及数字化的实验室幻灯片,高分辨率的放射图像、视频的流行,医疗保健数据量呈指数级增长,整个医疗行业的数据量令人难以置信。再加上制药企业和学术研究机构档案,以及数万亿的数据流从可穿戴式设备的传感器中得到。据EMC和IDC发布的报告显示:2013年全球医疗保健数据量为153EB,预计年增长率为48%,这意味着到2020年,这个数字将达到2 314EB。如图1-3所示。一般计算机的硬盘存储数据是以GB或者TB为单位。1GB的容量可以储存约5.4亿个汉字,或者170张普通数码相机拍摄的高精度照片,或者300~350首长度为5~6分钟的MP3歌曲。
早期,大部分医疗相关数据以纸张化的形式存在,而非采用电子数据化存储,比如官方的医药记录、收费记录、护士医生手写的病例记录、处方药记录、X光片记录、磁共振成像(MRI)记录、CT影像记录等。随着强大的数据存储、计算平台,以及移动互联网的发展,现在的趋势是医疗数据的大量爆发及快速的电子数字化。据前瞻产业研究院发布的《2017—2022年全球健康医疗大数据行业发展前景预测与投资战略规划分析报告》显示,2015年,美国健康医疗大数据行业的市场规模达到102亿美元。预计到2021年,美国健康医疗大数据的市场规模有望接近1 000亿美元。
图1-3 医疗保健数据量
凯撒健康计划医疗机构(Kaiser Permanente),一个在美国加州发展起来的医疗健康网络系统,就有900万的会员,被认为拥有26.5~44PB的电子健康记录(IHTT,2013)。[6]IT时代涌现的还有各种网络社交媒体数据,比如谷歌(Google)曾经用来预测流感的数据。基因数据也是非常庞大的,一次全面的基因测序,产生的个人数据达到300GB。公开发布的基因DNA微阵列达到50万之多,每一阵列包含数万的分子表达值。在生物医药方面,功能性磁共振影像的数据量也达到了数万TB级别,每一幅影像包含有5万像素值。此外,各种健身和健康可穿戴设备的出现,使得对血压、心率、体重、血糖、心电图等的监测都变为现实和可能,信息的获取和分析的速度已经从原来的按“天”计算,发展到了按“小时”、按“秒”计算。比如,一家名为Blue Spark的科技公司已经生产出能24小时实时监测体温的新型温度计贴片temptraq。这种数据的扩展速度和覆盖范围是前所未有的,数据的格式也五花八门,可能是无格式文件(flat file)、逗号分隔值文件格式(CSV)、关系表、ASCII/纯文本文件等。同时,数据的来源也纷繁复杂,可能来自不同的地区、不同的医疗机构、不同的软件应用。不可否认,一旦理顺了多格式、多源头、呈爆炸性成长的大数据的整合和分析,医疗大数据将对提高医疗质量、强化患者安全、降低风险、降低医疗成本等方面发挥无与伦比的巨大作用。
[1] 一 1ZB=1 024EB=1 024PB=1 0243TB=1 0244GB。
[2] 二 陈遵秋,陈漪.浅谈医学大数据(上)[EB/OL].(2015-03)[2018-11-19].https://vcbeat.net/MG M2NTZmNmU3MjZhNzQ0NWIwNzJkZGE2YjdiMTI2NDM=.
[3] 一 工业和信息化部信息中心.工业和信息化部关于印发大数据产业发展规划(2016—2020年)的通知[R/OL].(2017-01)[2018-11-29].http://www.miit.gov.cn/n1146285/n1146352/n3054355/n3057267/index.html.
[4] 一 MySql:MySQL是一种关系数据库管理系统,关系数据库将数据保存在不同的表中,而不是将所有数据放在一个大仓库内,这样就增加了速度并提高了灵活性。MySql由瑞典MySQL AB 公司开发,目前属于Oracle旗下产品。MySQL 是最流行的关系型数据库管理系统之一,在WEB 应用方面,MySQL是最好的RDBMS(Relational Database Management System,关系数据库管理系统)应用软件。
[5] 二 麦肯锡:麦肯锡公司(McKinsey&Company)是由美国芝加哥大学商学院教授詹姆斯·麦肯锡(James O’McKinsey)于1926年在美国创建的,现在已经成为全球最著名的管理咨询公司。在全球44个国家和地区开设了84间分公司或办事处。
[6] 一 陈遵秋,陈漪.浅谈医学大数据(上)[EB/OL].(2015.3)[2018-11-19].https://vcbeat.net/MGM 2NTZmNmU3MjZhNzQ0NWIwNzJkZGE2YjdiMTI2NDM=.