中医临床数据结构化与知识关联方法学概论
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

一、数据类

数据是知识的一种表达方式,也是人类行为活动记录的载体。其中信息、数据和大数据等基本概念的统一规范是数据处理的基础。

(一)数据

数据(data)指管理者与被管理者(人类)行为活动的记录资料,是事实或观察的结果,是对客观事物的逻辑归纳,用于表示客观事物的未经加工的原始素材。

数据是信息的表现形式和载体,可以是符号、文字、数字、语音、图像、视频等。数据和信息是不可分离的,数据是信息的表达,信息是数据的内涵,信息隐含在数据之中。

数据可以是连续的值,比如声音、图像,称为模拟数据;也可以是离散的,如符号、文字,称为数字数据。在计算机系统中,数据以二进制信息单元0和1的形式表示。

(二)数据知识化

数据知识化(knowledgeable)是依据数据标准,对数据进行明确计量、科学分析、精准定性等量化的过程。它将问题转化为可应用计算机技术分析计算的数据报表形式,是一个重要并基础的数据处理过程。

(三)数据标准

数据标准(data standards)指保障数据的内外部使用和交换的一致性、准确性的规范性约束,主要包括元数据、数据元、数据集、数据管理与服务等标准。

(四)大数据

大数据(big data)或称巨量资料,指需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产,是完整的、动态的人类行为活动的全部记录资料。它是无法在可容忍的时间内用传统信息技术和软硬件工具对其进行获取、管理和处理的巨量数据集合,具有数量大、多样性、增速快、真实性和高价值五大特征,需要可伸缩的计算体系结构以支持其存储、处理和分析。

大数据通常体量较大,数据量级可达到TB(太字节)级、PB(拍字节)级和ZB级等。大数据具有时间敏感性,流数据的分析以毫秒计,以支撑实时决策。大数据的多格式化(多样性)包括结构化数据、准结构化数据和非结构化数据,如电子邮件、音频、视频、点击流、日志文档和生物计量学数据等。

(五)大数据资源

大数据资源(big data resources)指作为一种具有战略意义的新资源,具有自生性和可人工生成的特征。这是黄金、石油和货币等传统资源望尘莫及的——黄金具有稀缺性,石油不可再生,货币可引起通货膨胀。

《中共中央 国务院关于构建更加完善的要素市场化配置体制机制的意见》作为中央关于要素市场化配置的文件,将数据作为一种新型生产要素,与土地、劳动力、资本、技术等传统要素并列,明确提出要加快培育数据要素市场,推进政府数据开放共享、提升社会数据资源价值、加强数据资源整合和安全保护,明确了要素市场制度建设的方向和重点改革任务。

(六)大数据治理能力

大数据治理能力(big data governance capacity)指以标准化、体系化和智慧化等技术为支撑,通过“规范化数据、多元化采集、主题化汇聚、集约化存储和知识化处理”,用“数据说话、数据管理和数据决策”,促进数据资源共享和各部门间的业务协同,确保发展战略目标的实现。

(七)临床数据资源

临床数据资源(clinical data resource)指临床医疗活动中所有可产生价值的记录资料,包括电子病历、临床观察病例报告表(CRF)、医学影像、临床化验、医技检查、病理和生物标本等所有与临床诊疗活动相关的数据总称。

(八)临床数据编码

临床数据编码(clinical data coding)指依据临床诊疗信息分类与代码标准对临床诊疗行为活动的记录资料——临床数据进行代码转换,即基于临床数据标准对临床诊疗信息代码化处理的过程。

(九)临床数据结构化

临床数据结构化(structured clinical data)指以自然语言表达的临床医学文本(电子病历),转化为CRF形式的数据表格,再依据医学知识属性编码(信息分类与代码)标准对其进行属性化知识再表达,将其转换成以数字和符号来表达的数据化临床记录表单(CDF),并按其语义结构,最终以关系型(面向对象)结构的方式保存到数据库中,成为可检索、分析和计算的结构化数据的过程。中医电子病历结构化对原始文本中医病历通过采集、清洗、脱敏、去噪、语义识别等处理,实现多层级、不同颗粒度的结构化信息抽取,形成形式统一的以数字、符号表示的临床记录表单的过程。

(十)数字化

数字化(digital)是将许多复杂多变的信息转变为可以度量的数字、数据,再以这些数字、数据建立适当的数字化模型,把它们转变为一系列二进制代码,引入计算机内部,进行统一处理。

数字化将任何连续变化的输入如图画的线条或声音信号转化为一串分离的单元,在计算机中用0和1表示。通常用模数转换器执行这个转换。数字化奠定基础,实现数据资源的获取和积累;网络化构建平台,促进数据资源的流通和汇聚;智能化展现,通过多源数据的融合分析呈现信息应用的类人智能,帮助人类更好地认知复杂事物和解决问题。