卫生信息利用与决策支持:理论研究与国内实践
上QQ阅读APP看书,第一时间看更新

第三节 卫生决策支持系统

一、卫生决策与信息
(一)卫生决策的概念
决策存在于人类生活的各个领域,如军事上的指挥、医疗上的诊断、企业的经营管理、政府的政策制定等,都离不开决策。决策过程离不开信息,信息是科学决策的原材料,只有充分掌握信息并根据信息作出判断才能确保决策的正确性。
卫生决策是指作出与治疗方案、医学处置和公共卫生政策等有关的一些重要的决定。在我国,医疗卫生决策包括卫生技术人员在提供具体医疗卫生服务时的决策和卫生管理人员在履行管理职能、发挥领导作用时的决策。前者主要指临床决策,后者则是指包括医院管理、应急指挥、卫生管理等在内的一切医疗卫生行政管理决策。
随着计算机信息技术的渗透、医疗科技的进步和卫生管理事业的发展,医药卫生决策问题成为卫生领域广为关注的问题之一,各级决策者和卫生技术人员对信息的需求与日俱增。尽管数字化的医学信息日益增多,但卫生决策过程所涉及的因素也日趋多样化和复杂化,决策者们很难及时处理海量而复杂的信息,信息分析的难度增大,如何有效利用这些信息来提高医疗卫生服务的质量,改善卫生系统整体绩效,成为众多医疗卫生决策者和医务工作者关注的热点。
(二)卫生决策信息
医疗卫生决策的信息来源种类繁多复杂。网络、杂志、报纸等媒体上记录有很多与医学有关的文字、声音、图片信息;医疗仪器可以从人类的基因、蛋白质和细胞中获取生物信息;各种医疗影像设备可以获取人类各种组织和器官的医学图像信息;从医院信息系统和个人健康档案里可以获得临床信息;从社区医疗服务和各种公共卫生服务机构可以获得公共卫生信息等。这些信息的分析和利用,需要结合计算机科学、医学科学、认知科学、管理科学等各种学科的知识和技术。如图1-1。
图1-1 医疗卫生信息和分析利用
由于医疗卫生系统的特殊性,其卫生信息具有如下特征:
(1)数量庞大,复杂性高:
卫生信息是以人为中心的信息,因此涉及的数据是海量的,数据的类型、属性、表达方式也是错综复杂的。
(2)应用广泛、与人密切相关:
卫生信息于个人和社会都有很大的作用和意义,如流行病、公共卫生等信息的采集、处理和发布涉及千家万户,对提高卫生和医疗工作的水平也具有指导意义。
(3)卫生信息的私密性强:
卫生信息牵涉个人、家庭、民族、地方甚至国家的相关信息,尤其个人诊疗信息具有法律意义,是医疗纠纷、司法鉴定的佐证,因此卫生信息的安全保密工作尤为重要。
(4)卫生信息的连续性和时效性显著:
就个人健康信息来说,它是伴随个人全生命周期的健康档案,记录了个人从出生到死亡的连续医疗保健行为和健康状态。同时,在抢救生命的危急关头,准确实时地传递医疗信息,突显了医学信息时效的重要性。
(5)卫生信息的处理难度大:
卫生信息系统处理的信息对象种类繁多、流程复杂,涉及各种健康信息流、诊疗信息流、财务信息流、综合管理与分析统计信息流等,其开发、管理和维护的难度巨大。
(三)卫生决策信息分析方法
信息分析(information research)起源于20世纪中叶,起初是为了应对信息激增的需要,适应现代管理技术的科学化需求而产生、发展起来的。信息分析以社会用户为依托,以定性和定量研究方法为手段,通过对社会信息的收集、整理、鉴别、评价、分析、综合等系列化加工过程,形成新的、增值的信息产品,最终为不同层次的科学决策服务。信息分析的目的可以归纳为以下四点:
(1)提取有用信息:
从混乱的信息中捕捉并提取出有针对性的、对解决问题有价值的信息,是信息分析最需要的。
(2)发现隐蔽信息:
从表面信息发现深层信息,从离散的信息中识别出聚类的信息。
(3)预测未来信息:
根据已往的和现在的信息进行推演和预测。
(4)推算总体信息:
从点滴的、不完整或不充分的局部信息推知整体信息。
信息分析的基本步骤包括:①针对用户的信息需求,制定研究课题;②通过文献查阅和社会调查,广泛搜集课题相关信息;③对搜集到的信息进行加工整理、评价和分析研究,使得信息内容达到系统化、有序化,以此来揭示客观事物的运动规律;④在此基础之上,运用科学的理论、方法和技术对未来的信息进行合理预测;⑤将分析成果形成信息产品,传递给不同的用户,指导并影响用户作出决策,最终应用到社会实践中来。这其中的每一个步骤均是后一个步骤的基础,同时也是前一个步骤的拓展和深化。如图1-2所示。
图1-2 信息分析的基本步骤
信息分析方法的主要特征是综合性,表现在方法的来源、性质和结构等多方面。作为一个新兴领域,信息分析采用的方法在不断发展,应用其他学科和领域的方法尤为突出,主要包括逻辑方法、系统分析方法、图书情报学方法、社会科学方法、统计学方法、预测学方法等6个领域方法,但信息分析的方法来源并不局限于此。目前计算机辅助技术正在信息分析领域内兴起,软件技术和计算机应用技术的革新对计算机辅助信息分析(computer-assisted information analysis,CAIA)会产生重大影响。
常用的卫生信息分析方法包括:常用逻辑法、专家调查法、信息计量学方法、系统分析方法等。
1.常用逻辑方法
逻辑方法是人类把握思维规律和客观规律的基本方法,卫生信息分析中主要用到的逻辑方法有比较法、分析和综合法、推理法。
(1)比较法(comparison):
即对比法,就是对照各研究对象,以确定其间差异性和同一性的一种逻辑思维方法。比较通常有时间上的比较和空间上的比较,前者是一种纵向比较,主要是同一事物在不同时期的某一(或某些)指标进行对比,以动态地认识和把握该事物发展变化的历史、现状和走势;后者是一种横向比较,即某一时期不同国家、地区、部门的同类事物进行比较,以找出差距,判明优劣。实际上,两种比较往往结合使用,比如,在疾病研究中,经常是通过对比某疾病患者在不同病程的不同临床表现以及同一疾病不同患者的相同症状来发现疾病规律的。此外,在医学文献计量中也常用到比较法。
(2)分析和综合法:
分析法(analysis)是将研究对象的整体分解为各个部分、要素、单元、环节或层次,并分别加以研究的一种思维方法,包括问题分析、比较分析、相关分析、因果分析、类比分析等。综合法(synthesis)是和分析法对立的一种方法,是把构成事物的各个要素、部分、因素、方面、层次、环节等综合起来加以研究的一种逻辑方法。分析和综合是辩证统一的关系,既互相矛盾又相互联系。二者在一定的条件下又可以相互转化,分析之后的思维活动往往会逐步偏向综合,把分析的结果结合起来考虑,综合之后的认识又会引起新的分析活动。在医学界,许多生理、病理理论都是通过分析与综合提出的,美国生殖免疫学家西格尔(I.Seagle)就是将大量、不同层次的实验结果进行分析、综合、归纳后提出了红细胞免疫系统假说。
(3)推理法(reasoning):
是从一个或几个已知的判断中得出新的判断的思维过程。推理由前提和结论两部分组成,都包含已知判断、新的判断和一定的推理过程这三个要素。根据推理的前提和结论的关系,可以将推理分为归纳(induction)推理和演绎(deduction)推理两种,前者是从个别事物推导出一般原理,后者是从一般原理推算出个别事物的发展。归纳与演绎相互渗透,互为补充。演绎必须以归纳为前提,归纳又要以演绎为指导,用演绎来证明。生理学中著名的血液循环理论就是推理的完整过程:哈维(Harvey)通过大量的动物解剖实验归纳出血液是单向流动的,从而驳斥了先前的理论,又通过后来的血管结扎实验证明了动脉和静脉的血液流向,从而提出了血液循环理论。
2.专家调查法
专家调查法是以专家作为调查对象,依靠专家的知识和智慧,为收集资料、分析问题、调查研究、评估和预测作出判断的一种方法。专家调查法的种类很多,形式多样。
(1)同行评议法(peerpreview):
是为了给某项决策提供依据,针对涉及该决策的某项事物,组织从事该领域和相近领域工作的专家根据自己的专业修养来评定其学术水平或重要性的一种定性的评价方法,也称专家评审法。
(2)头脑风暴法(brainstorming):
是借助专家的创造性思维来获取信息的一种直观预测方法。其原理是让专家们通过信息交流和相互启发,产生思维的“共振”、“组合效应”。其种类包括直接法和质疑法,前者是利用专家在头脑风暴会议中进行群体决策时激发创造性,后者则是对前者的解决方案进行质疑、辩论,讨论其可行性。
(3)德尔菲法:
德尔菲法(Delphi)又称专家集体预测法,是美国兰德公司于1964年发明的一种科学预测的定性信息分析法。此方法是在预测领导小组的主持下,就某个科学技术课题向有关专家发出征询意见的调查表,把整理结果作为参考意见再发给这些专家,供进一步分析判断,提出新的论证,如此多次反复,按意见收集情况作出预测。
该方法具有匿名、反馈和统计的特点,主要用于4个方面:
完成时间的预测,方案所占最佳比重的预测,方案预测及方案重要性评估,最优方案预测性评估。在卫生领域中,德尔菲法常用于卫生政策的制定与评估。
该方法有较为成熟的程序步骤:
①确定评价(预测)目标;②选择被调查对象。专家的选择也有要求,代表面要广,权威程度要高,人数以20~50人为宜;③设计调查评估意见征询表。表格中思考判断的问题要多,而应答填写的问题要尽量少;④专家征询和信息反馈。经典德尔菲法一般经过3~4轮征询:第一轮是事件征询,发给专家征询表,专家回函后整理出第二轮的征询表发给专家;第二轮是事件评估,专家作出详细的评估预测后再回函,回函后马上计算出专家意见的概率分布,连同第三轮征询表发给专家;第三轮是轮间信息反馈和再征询,专家根据总体意见倾向修改自己的意见;第四轮是对落选的意见再给予一次评估。
3.信息计量学方法
信息计量学(informetrics)是采用定量方法来描述和研究信息(情报)的现象、过程和规律的一门科学。一般认为,信息计量学的逻辑发展过程为:统计书目学→文献计量学→科学计量学→信息计量学,随着计算机网络的发展,又诞生了网络计量学。信息计量学方法也是由多种方法构成,下面主要介绍文献计量学方法和网络计量学方法。
(1)文献计量学方法(bibliometrics):
是采用数学、统计学等计量方法,研究文献情报的分布结构、数量关系、变化规律和定量管理,并进而探讨科学技术的某些结构、特征和规律的一门学科。其主要理论基础是经典的三大基本定律(布拉德福定律、洛特卡定律和齐普夫定律)和两个规律(文献信息增长规律、文献信息老化规律),主要研究对象包括3个方面:文献的外部特征指标、文献的内部特征指标以及与文献相关的服务指标。文献计量学主要应用于医学文献研究,以及和医学文献相关的信息统计、期刊筛选、需求分析、人才评价、数据挖掘、科学预测等工作,其方法众多,包括描述统计分析方法、数据模型法、引文分析法、内容分析法、数据挖掘法等方法。
(2)网络计量学方法(webometrics):
是采用数学、统计学等各种定量研究方法,对网上信息的组织、存储、分布、传递、相互引证和开发利用等进行定量描述和统计分析,以便揭示其数量特征和内部规律的一门新兴学科。其研究目的是通过对网上信息的计量研究,为网络信息的有序化组织和合理分布以及网络信息资源的优化配置和有效利用提供定量依据。从理论来说,互联网上的信息都可以是网络计量的研究对象,包含以下三个层次:①网络信息的直接计量,包括对文字、图像、声音、视频、网页等不同信息载体在数量、流量、时间等直观指标的计量;②网络文献、文献信息及相关特征的计量,如电子期刊、论文、图书、报告等各类电子文献的分布结构、著者信息、出版地、关键词等信息的计量;③网络结构单元(站点)的信息计量,包括布告栏、聊天室、讨论组、电子邮件等的信息增长、老化、学科分布、传递、相互引证等的计量。
网络计量学的研究可分为四类:应用统计方法对数据进行统计分析;运用图论的方法对数据进行可视化研究;运用揭示数据聚簇和分散的工具进行数据挖掘研究;运用解释和模拟网络结构和增长理论工具进行模拟研究。目前,网络计量在卫生领域的主要应用包括:跟踪卫生相关新闻热点,评价网络健康信息和建设数字图书馆等方面。
4.系统分析方法
系统分析(system analysis)是把研究对象看成一个整体、一个系统,从整体、系统的角度出发来研究系统内各部分之间的有机联系,以及和系统外部的相互关系,是一个综合的研究方法。系统分析的目的是通过对诸多领域的研究对象进行定量的或定性与定量相结合的综合分析和综合比较,根据不同事物的共同规律来建立一般性的数学模型,从而对客观世界的各种系统进行精确描述。
系统分析方法有很多,包括鱼骨图法(因果分析图)、排列图法(帕累托图)、关联树分析法、投入产出分析法、规划方法、层次分析法、系统动力学方法、价值分析法等。此处只介绍规划方法和层次分析法。
(1)规划方法
线性规划(liner programming):
主要研究线性约束条件下线性目标函数的极值问题,即在现实中研究如何恰当地使用有限资源来达到最大效益或一定条件下的最优设计。在医院管理中,选购药品、设备问题,医院扩张问题,各科室的病床分配问题等都可以利用线性规划来解决。
动态规划(dynamic programming):
是在动态条件下,使用多重决定或多级问题的解来实现最优化的数学方法。其处理对象是含有时间因素的决策问题,包括动态决策问题和人为引进“时间”因素的静态决策问题。在求解最短路径、库存管理、资源分配、设备更新、排序、装载等问题上,动态规划方法比其他方法更为有效、简便。
(2)层次分析法(analytic hierarchy process,AHP):
形成于20世纪70年代,是一种定性与定量相结合的半定量方法,可以将人的主观判断用数量形式表达和处理。其基本思想是把一个复杂的研究对象划分为递阶层次,并根据客观事实的判断,就每一层各元素两两之间相互重要性进行定量表示,然后综合判断,确定决策因素的相对重要性以及对上层的影响。
AHP的基本步骤是根据人类的辩证思维过程,先将一个复杂的研究对象划分为递阶层次结构,同一层的各元素具有大致相等的地位,不同层次元素间具有某种联系;再对单层次元素构造判断矩阵以得出层次单排序,并进行一致性检验;最后通过逐层叠加的方法计算层次总排序。AHP的独到之处在于递阶层次结构、判断矩阵和一致性检验。层次分析的操作步骤如图1-3所示。
图1-3 层次分析操作步骤
AHP在卫生领域的应用十分广泛,可以用来解决医院绩效考核体系研究,医院信息系统建设方案选择,区域卫生资源分配等问题。
5.回归与相关分析方法
客观世界中变量间存在确定和不确定的关系,前者用函数关系可以表达,后者则不能。相关和回归分析法正是针对这些有一定联系但关系不确定的变量进行统计描述的一种研究方法,主要应用于医学统计分析,比如分析实验室数据中温度对反应产物的影响,预测统计数据中肥胖和高血压之间的关系等。
(1)相关分析(correlation analysis):
是研究两个或两个以上变量之间相关程度大小以及用函数对这种相关关系进行表示的方法。其中,相关关系是研究对象,函数是研究工具。在进行两个变量的相关分析时,做散点图是最常用的方法。
(2)回归分析(regression analysis):
是研究变量与变量之间的关系,分析一些变量对某个变量的影响并进行预测或控制的一种数理统计方法。一般步骤为:①用适当的数学模型对变量观测值进行统计处理和计算,利用最小二乘法原理确定最优关系式,即回归方程;②对回归方程进行假设检验,看其是否具有统计学意义;③根据有统计学意义的回归方程对因变量进行预测或对自变量进行控制,并指出如此做的可信程度;④多重回归还要对偏回归系数进行假设检验,分辨主次要因素。
6.聚类分析法
聚类分析就是根据不同研究对象存在不同程度的相似性,把相似程度高的对象聚合为一类,再把相似程度低的聚合为另一类,反复聚合数次后将相似的聚合到小类里,不相似的聚合到大类里,最终形成一个大类,这样就形成一个由近及远、从小到大的分类关系。
聚类分析的方法很多,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。其中系统聚类法(systematic cluster method)是在实际工作中使用最多的一种方法,在聚类过程中只有两个基本过程:把类间距相近的两类合成一个新类,重新计算各类之间的距离;最后把聚类过程做成聚类树图,按聚类树图特征选择恰当的分类。
聚类分析可以和引文分析联合使用,对医学文献进行同被引聚类分析,得出当前的研究热点;在医院管理中,可以对指标进行聚类分析,并结合主成因分析法抽提出主要指标。
7.时间序列分析法
时间序列是指被观察到的某种统计指标,按照时间先后顺序排列的数据序列。时间序列分析(time series analysis)是通过对历史数据变化的分析,来评价事物的现状和估计事物的未来发展趋势的分析方法,在医学统计和预测技术中有很重要的地位。时间序列分析在卫生领域的应用非常广泛,比如预测某医院下一季度的门诊量、某药厂下一个年度的出货量。
分析时间序列的步骤一般是先把时间序列绘制成历史数据曲线图,然后求出时间序列的基本发展趋势,分析可能存在的季节或循环变动,再通过对随即变动的分析确定一个合理区间进行预测。根据对历史数据的处理方式,可以将时间序列分析分成三大类,如图1-4所示。
图1-4 时间序列分析方法体系
8.循证医学方法
循证医学(evidence-based medicine,EBM)是提出疑问,检索并评价相关数据,并将信息应用于临床实践的一种方法。其研究主要包括两方面:一是对医学研究成果二次开发,二是医学证据的传播以及临床应用。研究的基本步骤可概括为“5A”,即提出问题(ask)→寻找证据(acquire)→评价证据(appraise)→应用证据(apply)→评价应用证据的效果(assess)。
循证医学的方法有很多,其中Meta分析可以将多个相互独立的研究成果进行定量合成分析,从而获得一个综合性结论,其基本步骤如图1-5所示。Meta分析不只是一种统计方法,本质上是利用二手资料的观察性研究,在增大样本量的同时也增加了统计分析的检验效能,尤其适用于对随机对照试验结果的综合。目前,Meta分析在医学领域中主要应用于以下方面:人群重大健康问题,病因研究中因果关系的强度和特异性,预防、治疗或干预等措施影响的强度和特异性,临床研究手段问题,疾病治疗的成本效益问题以及卫生策略效果评价等。
图1-5 Meta分析基本步骤
二、卫生决策支持系统概述
(一)概念
健康是人类不断追求的共同目标。国民营养与健康状况是反映一个国家或地区经济与社会发展、卫生保健水平和人口素质的重要指标。作为国家“软实力”的国民健康是社会和谐的稳定器、经济发展的原动力、国际交流与合作的通行证、履行国际责任的新要求。
21世纪医疗卫生工作者所面临的首要问题将不再是“我们是否提供了高质量高效率的服务?”或是“我们是否提供了应该提供的服务?”,而是“我们是否高质量高效率地提供了应该提供的服务?”就是说,我们是否做好了应该做的事。“做好应该做的事”已经成为21世纪医疗卫生管理所应追求的新理念、新目标。在医疗卫生领域,正确的医疗处置和政策制定需要在准确的信息分析基础上作出。医疗卫生决策不再仅凭经验和直觉,而是经过相关信息分析后所作出的决策。计算机技术在医学领域的快速渗透,使得大量医疗卫生数据被计算机准确地记录下来,在信息技术的支持下,这些数据资源几乎涵盖了医疗卫生领域的各个方面,已成为医疗卫生领域开展医疗服务、实施科学研究、制定卫生政策的重要资源。医疗各部门纷纷规划将这些海量数据资源转化为决策信息,并利用计算机技术实现对医疗卫生决策的支持作用。
卫生决策支持是指利用计算机技术,帮助医疗卫生技术人员和管理人员在半结构化或非结构化任务中作出决策,达到支持决策者进行判断、改进决策效能的目的。近年来,全国大力发展卫生领域的信息化建设,在国家层面上建立了公共卫生信息系统,并健全了疾病信息网络体系、疾病预防控制体系和医疗救治体系等;在机构层面上,大多数二级以上医院建立了医院信息系统,部分基层卫生机构实现了业务操作的计算机化。然而,很多信息系统只能满足利用计算机进行日常事务处理工作,不能直接提供决策支持。与此同时,随着计算机技术在医疗卫生领域的广泛应用,卫生行业的分工、业务流程和管理流程均发生着重大的变化。整个环境的变化对医疗卫生决策提出了更高的要求,包括:更高的质量、更快的速度、更复杂的考虑因素、更大的失败代价。面对这些变化,迫切需要一个工具辅助医疗卫生人员进行有效的决策。具有智能性的卫生决策支持系统应运而生,并迅速发展起来。
卫生决策支持系统(health decision support system,HDSS)是面向医学领域的决策支持系统,即是面向医疗卫生领域的半结构化和非结构化决策问题,利用决策支持系统相关理论和技术,支持医疗卫生人员决策活动的具有智能作用的人机交互式信息系统。卫生决策支持系统是在各种管理信息系统的基础上发展起来的,以支持各级卫生技术人员和卫生管理人员辅助决策为目的,例如公共卫生信息系统基础上的公共卫生决策支持系统、社区卫生服务信息系统基础上的社区卫生决策支持系统、临床信息系统基础上的临床决策支持系统等。
卫生决策支持系统的设计方法是以模型驱动为主,重视卫生政策模式的研究与模型、知识的使用,决策需求主要集中在公共卫生、医疗卫生、药品管理、医疗保障、综合管理、基层卫生等业务领域。本书设计了如图1-6所示的卫生决策支持系统概念模型。
图1-6 卫生决策支持系统概念模型
(二)卫生管理信息系统与卫生决策支持系统
政府和个人卫生保健组织依赖当今强大的信息技术生产、传播多主题的健康信息,包括预防、疾病和伤病管理、资料选择和预后护理等。同时,用户对健康信息的需求越来越高,而且往往要求直接参与到健康保健和生活方式的决策中来,这就需要信息系统对用户健康需求作出快速、有效的反应,为用户提供满足个性化需求的卫生保健信息。应用卫生信息管理的理论和方法,建立能满足多用户需求的信息系统和决策支持系统,是卫生系统控制费用增长、改善服务质量的有效措施。卫生信息管理系统在此种背景下得以迅速发展。
卫生信息管理是对卫生信息资源和相关信息活动的管理。卫生信息管理系统对政府卫生管理部门而言,是对各医疗卫生机构进行管理,为辖区内居民提供各类卫生信息服务的信息系统;对各类医疗卫生机构而言,是根据各机构自身的工作目标和特点,利用各种信息技术,对各自管理和服务的对象进行综合管理的应用系统。卫生信息管理系统能大幅度提高政府机构管理水平、部门间协同工作的能力、社会服务能力。按照信息系统的发展历程和趋势来看,卫生信息管理系统从最初的数据处理系统、事务处理系统,演变为办公自动化系统、管理信息系统、知识管理系统,并逐步发展成现代主流的决策支持系统、专家系统、智能系统等。其发展历程中,具有里程碑意义的是以医院财务管理、人事管理、物流管理等信息系统为代表的卫生管理信息系统,及以突发公共卫生事件应急指挥中心与决策系统、疫情和突发公共卫生事件监测系统等为代表的卫生决策支持系统。
卫生决策支持系统(HDSS)是卫生管理信息系统(HMIS)发展到一定阶段出现的一种新的自成一体的信息管理系统,二者既有明显区别又相互联系。二者区别在于:HDSS追求高效能,以提高卫生决策的能力和效果为目标,HMIS追求高效益,以提高卫生管理水平为目标;HDSS着眼于决策,即着重考虑如何根据决策问题的需要,为决策者提供有价值的信息;HMIS着眼于信息,即着重考虑如何完成例行业务活动中的信息处理任务。HDSS的设计原则是强调充分发挥人的经验、智慧、创造力,努力使系统设计有利于个人或组织决策行为的改善,而HMIS的设计原则是强调系统的客观性,努力使系统设计符合组织的实际情况;HDSS的设计方法是以模型驱动的,重视卫生决策模式的研究与模型、知识的使用,HMIS的设计方法是以数据驱动的,以数据库设计为中心;HDSS通常由人机对话系统、数据库系统、模型库系统、知识库系统组成,而HMIS通常由人机对话系统、数据库系统组成;HDSS能够帮助解决的是半结构化和非结构化的卫生决策问题,并且以人机对话作为系统工作的主要方式,而HMIS只能解决结构化的卫生决策问题,并且人工干预日趋减少。二者联系在于:HMIS收集、存储及提供的大量信息是HDSS工作的基础,而HDSS能够使HMIS提供的信息真正发挥作用;经过HDSS的反复作用,新的数据模式与问题模式将逐步明确起来并逐步结构化,最后纳入HMIS的工作范围;HMIS担负着收集系统的反馈信息的任务,支持HDSS进行效果检验;HDSS的工作包括了对HMIS工作的审计和检查,为HMIS的改善和提高指明了方向。
三、卫生决策支持系统体系结构
(一)基本部件
20世纪70年代末至80年代初开发的DSS主要由5个部件组成:对话系统、数据库、模型库、知识库和方法库。后来,在这5个部件的基础上又开发了它们各自的管理系统,即对话管理系统、数据库管理系统、模型库管理系统、知识库管理系统和方法库管理系统。一大批现有的DSS都可以认为是这10个基本部件的不同集成或组合。一般来说,这10个部件可以组成支持任何层次和级别的DSS系统。在大多数DSS中,数据库、模型库、知识库和方法库都与各自的管理系统相结合,从而分别构成了数据库系统、模型库系统、知识库系统和方法库系统,一般统称为四库系统,是DSS的主要组成部分。
卫生决策支持系统是面向医疗卫生领域的决策支持系统,是DSS理论与技术在医疗卫生领域的具体应用,因此,其基本部件与系统结构同一般DSS一致,只是其个部件所承载的内容更具有领域特色。下面将简单介绍卫生决策支持系统的对话系统与四库系统。
1.对话系统
对话系统是DSS与用户之间的交互界面,用户通过对话系统控制DSS的运行。理想的人机接口是用自然语言来实现决策者与计算机的沟通,20世纪80年代以后构建的DSS开始利用语言系统(language system,LS)和问题处理系统(problem processing system,PPS)来实现人机交互的功能,具有这种功能的DSS就成了智能DSS。
2.数据库系统
数据是决策的依据,也是减少决策不确定性的基础,因此数据库(data base,DB)是DSS的一个最基本部件,任何一个DSS都不能缺少数据库系统。数据库系统一般由数据库、数据库管理系统、数据字典、数据询问模块和数据析取模块组成。决策支持系统的数据库系统应能与组织内部或外部的数据仓库(或数据库)及个人数据库相连并从中析取数据,建立DSS数据库,并支持随机存取。
3.模型库系统
DSS的基本思想是运用计算机系统进行模型分析来模拟现实,所以模型库系统是DSS最具特色的部件之一。模型库系统由模型库、模型库管理系统和模型字典组成,主要功能是通过使用人机交互语言使决策者方便地利用模型库中各种模型支持决策,引导用户运用模型进行科学决策,并可在必要的情况下建立和修改模型。
4.知识库系统
决策中大量存在的半结构化问题与非结构化问题单纯用定量方法是无法解决的,因而有必要在DSS中建立一个可存放各种规则、因果关系、决策人员的经验等的知识库,并建立知识库管理系统。还应有能够综合利用知识库、数据库和定量计算结果进行推理和问题求解的推理机,以实现决策时的推理功能。
5.方法库系统
为了使DSS的结构更加清晰,同时减少冗余,将方法库从模型库中分离出来,这样允许DSS从数据库选择数据,从模型库选择模型,从方法库选择算法,然后将数据、模型和算法结合起来进行计算,并通过清晰的显示方式将结果输出,供决策者使用。因此,方法库系统的功能是为求解模型提供算法,是模型应用的辅助系统。
(二)结构形式
1.三库结构形式
Sprague提出的DSS三库结构形式仅由数据库、模型库、方法库及相应的管理系统组成,是早期的DSS结构形式,其结构如图1-7所示。
图1-7 DSS的三库结构
这种三库结构明确了三部件的结构以及它们之间的接口关系和集成关系。模型和数据分别存储与管理,并在模型库管理系统与方法库管理系统间建立接口,模型运算要调用数据库中的数据时需要通过接口调用,而不能直接存取数据。集成关系表示将模型部件和数据部件以及对话系统集成起来,才能形成DSS。同时集成关系还实现了模型与方法的分立,为模型的生成与组合奠定了基础。
但这种早期的DSS结构形式没能突出问题处理特性,也没有强调语言系统,而DSS至少应具有数据库语言和数值计算语言两种基本的语言,才能实现数据库处理能力和模型计算能力。
2.四库三功能结构形式
为了提高决策支持系统的功能,不少研制者在DSS三库结构的基础上增加知识库,以提高智能效果。比较典型的结构是四库三功能结构形式,如图1-8所示。
图1-8 DSS的四库三功能结构
四库三功能结构中四库是数据库、模型库、方法库和知识库,三功能是指该系统所具有的信息服务、科学计算和决策咨询三种功能。
(1)信息服务:
包括外部服务和内部服务。外部服务是指为决策者提供所需要的信息,也可作为其他系统的信息资源;内部服务是指为本系统其他功能的实现提供基础数据。
(2)科学计算:
科学计算以信息服务为基础,既包括模型库和方法库的数值计算,也包括决策咨询时所需要的其他数值计算,并注重用户干预和选择。
(3)决策咨询:
在科学计算的基础上,增加知识和推理功能后,就可以对决策起进一步的支持作用。为了强化决策咨询的功能,可为DSS开发一个准专家系统。
四库三功能结构是初级的智能DSS,在某种意义上来说,该系统的推理被看成一个准专家系统,因为引入了知识库和推理机,它在知识的获取、表示和推理方面所使用的基本技术与专家系统几乎没有差别。四库三功能结构的智能DSS对于自然语言的处理能力很弱,而用户友好是DSS备受关注的重要问题,因此,比较理想的DSS应该具有自然语言处理能力。
3.基于知识的3S结构形
R.H.Bonczek于1981年提出了基于知识的3S结构,由语言系统(LS)、知识系统(knowledge system,KS)、和问题处理系统(PPS)3个部分组成,如图1-9所示。
图1-9 基于知识的DSS的3S结构
由于引入了KS和LS,使这种DSS具有了人工智能功能,它的关键技术是自然语言处理,这项工作由LS和PPS共同完成。但是这种框架仍然保留着专家系统的求解思路,未能充分体现决策者在模型建造、模型选择方面的作用和DSS模型驱动的特点。并且该结构模型将数据库、模型库与知识库笼统地视为知识系统的共同组成,却未能体现各库之间的关系。
(三)四库系统
1.模型库系统
(1)模型库系统:
模型库系统由模型库、模型库管理系统和模型字典三部分组成,其主要功能是通过使用人机交互语言使决策者能方便地利用模型库中各种模型支持决策,引导决策者应用模型科学地决策。其中,模型库是各种决策模型的集合,模型库管理系统专门管理模型库中模型的建立、使用和维护。
(2)模型库
模型的概念:
模型是以某种形式(如数学表达式、工作流程)对一个系统的本质属性的描述,以揭示系统的功能、行为及其变化规律。模型是认识客观世界的重要手段,在DSS中,模型是问题求解的主要手段之一。
卫生决策支持系统中的常用模型(表1-1):
表1-1 HDSS中常用的模型
卫生决策支持系统中模型的种类:
图标模型是最直观的一种模型,通常是原型的不同比例的缩影。图标模型可以是平面的,也可以是三维的。模拟模型比图标模型更抽象,是现实系统的符号表示,常为二维表或图形。如股票走势表用于表示股票价格变动情况、机器或房屋的蓝图等。定量模型用具体的数据、变量、相互关系的公式等来描述现实系统。
模型的表示方式:
模型的表示趋向于将模型分解成基本单元,由基本单元组合成模型。对于不同的管理模式,基本单元采用不同的存储方式,目前主要有四种:①模型的程序表示:传统的模型表示方法都是程序表示,输入、输出格式和算法在内的完整程序就表示一个模型。②模型的数据表示:模型可看作是从输入集到输出集的映射,模型的参数集合确定了这种映射关系,模型的数据表示就是通过数据的转换来研究模型。③模型的语句表示:用某种语言把模型写成语句集,并将模型作为语句存储。语句集(模型)必须被嵌入到一个顺序的问题求解过程中去,并可以根据需要随时中断,具有较大灵活性。④模型的逻辑表示:逻辑关系既可以描述定量模型的输入/输出关系,也可以描述更广泛的模型(定性的、逻辑的和概念性的模型)的对应关系。因此,模型的逻辑表示对于描述含有定性、定量、半结构化和非结构化的决策模型具有重要意义,是实现模型智能管理的基础。
(3)模型库管理系统:
模型库管理系统是为生产模型和管理模型提供一个用户友好环境的计算机软件系统,通常具备的功能包括:①控制:系统应能提供完全自动和手动的模型选择。②灵活性:DSS用户可以用一种方法完成求解的部分工作,还能用多种方法完成求解的其他工作。③反馈:模型库管理系统应能提供足够的反馈信息,使用户能够随时知道问题求解的状态。④接口:便于应用模型库管理系统方便地使用模型。⑤减少冗余:用户可以共享模型,并减少冗余存储。⑥一致性:多个决策人可以使用相同的模型,并减少由于使用不同的数据和不同版本的模型所引起的不一致性。
为了提供上述功能,模型库管理系统还必须为用户提供存取、查询已有模型,操纵、存储、维护已有模型和构造新模型的功能。
2.数据库系统
数据是决策的依据,也是减少决策不确定因素的基础,因此数据库系统是DSS的重要组成部分。DSS所需要的是能对决策提供支持的数据,故与一般数据库相比,DSS对数据库的要求更多,包括:析取数据的能力、支持记忆、支持数据详细程度变化的功能、随机存取能力、集合运算能力、支持各种关系和视图。此外,还要求数据库有宽的时间范围、多重数据来源、公有的数据库、快速的响应时间,同时对DSS其他部件和终端用户要有好的接口。
DSS数据库系统往往由以下几部分组成:
数据析取子系统:
数据析取为模型运行准备和组织数据,它实际上是各种源数据库(包括个人数据、内部数据库及外部数据库)与DSS数据库的接口。
DSS数据库:
它通过数据析取部分析取数据。
数据库管理系统:
用来提供存取库中数据的功能。
数据字典:
用来维护系统中的数据定义、类型描述和数据源的描述。
数据查询模块:
用来解释来自其他子系统的数据请求。
3.方法库系统
为了使DSS的结构更加清晰,将方法从模型库中分离出来,单独组织成一个方法库系统。方法库系统由方法库和方法库管理系统两部分组成。方法包括数学方法、数理统计方法、经济数学方法等。
建立方法库的目的是为DSS提供一个合适的环境,允许计算过程本身实现交互式存取数据,从数据库选择数据,从方法库选择算法,然后将数据和算法结合起来进行计算,其中难点是把程序和数据综合起来,因此方法库系统是具有扩充性的程序组件,它们可以和多种数据库相连,并有与应用有关的控制系统,它把特定应用的要求转换成相应的系统程序。可扩充性是指在组件集合(程序库或方法库)中随时可以加入新的组件(程序或方法),这包括完全新建的方法和组合生成的方法。
4.知识库系统
(1)基本概念:
卫生决策支持系统应能够较有效地支持半结构化和非结构化问题的解决,这类问题往往无法单纯用定量方法解决。因此,必须在卫生决策支持系统中建立知识库,以存放各种规则、因果关系、决策人员的经验等。此外,还应有综合利用知识库、数据库和定量计算结果进行推理和问题求解的推理机。
数据:
知识库中数据比数学中的数据具有更广泛的含义,是指“客观事物的属性、数量、位置及其相互关系等的抽象表示”。例如,可以用二元组(感冒,鼻塞)来表示感冒具有鼻塞这个属性。
信息:
这里的信息是指“数据所表示的含义(或语义)”,是数据的解释,数据是信息的载体。例如,“3”在一个具体的场合可以解释为“3个病人”,在另一种场合又可以解释为“3种治疗方案”等。
知识:
一般意义上的知识是指人对客观事物的认知和了解的事实或状态,代表的是人对问题和事物的理解、判断和应用。知识在实际应用中有不同的表现形式,如经验、公理、规则、规律等。但现实生活中的知识并非都可以在知识库中再现,只有限定了范围和结构、经过改造和编码的知识才能够存储在知识库中,因此知识库中的知识是指以某种结构化的方式表示的概念、事件和过程。
推理方法:
推理是指由一个或几个已知的判断(前提),推导出一个未知的结论的思维过程。推理方法是知识处理的重要组成部分,用它可以从已有的知识推出新知识,是获得知识的重要方法。推理方法主要有演绎推理、归纳推理、类比与区分、综合与分析、预测、假设与验证等。
知识库:
是指经过分类组织的“知识的一个集合”。知识库概念是数据库概念在知识处理领域的拓展,知识库的组织、管理和维护方法可借鉴数据库。
(2)知识获取:
知识获取的方法可分为主动式和被动式两大类。主动式知识获取是知识处理系统根据领域专家给出的知识或资料,利用诸如归纳程序之类工具软件直接自动获取或产生知识并装入知识库中,也称为“直接获取”。被动式知识获取往往是间接通过一个中介人将知识授给知识处理系统,因此亦称为“间接获取”。
知识获取的方式有3种:
人工移植:
这种方式中,知识获取分两步进行。首先,利用知识工程师熟悉知识表示和组织,用确定的知识表示语言描述从领域专家或有关的技术文献处获取的非模式化知识,然后经模式化后由知识工程师用某种知识编辑软件将获取的知识输入到知识库中。
机器学习:
机器通过学习,获取知识,进行知识积累,对知识库进行更新。
机器感知:
通过机器的视觉、听觉等途径,直接感知外部世界,输入自然信息,获取感性和理性知识。
(3)知识表示:
所谓知识表示实际上就是对知识的一种描述,即用一些约定的符号把知识编码成一组计算机可以接受的数据结构,目的是利用计算机方便地表示、存储、检索、运用、增删和修改知识。目前,使用较多的知识表示方法有十余种,如数理逻辑、产生式规则、框架、语义网络等。
数理逻辑:
数理逻辑是现代的形式逻辑,以命题逻辑和谓词逻辑为基础,研究命题、谓词及公式的真假值。数理逻辑用形式化语言(逻辑符号语言)进行精确(没有歧义)的描述,用数学的方式进行研究。例如,用“∧”表示“与”,“∨”表示“或”,“→”表示“如果……那么……”等。
产生式规则:
由一组以“如果满足某个条件,那么就得出某一结论或采取某种动作”的形式表示人类知识和经验的基本形式,其形式为:
每个这样的语句就称为一个规则,一系列这种规则就组成一个知识库。例如,斯坦福大学于1975年开发的MYCIN系统,是用于中枢神经系统感染诊断和治疗的咨询系统,它的知识库包括400多条规则。
框架表示法:
框架理论认为人们对现实世界中各种事物的认识都是以一种类似于框架的结构存储在记忆中的。在框架理论中,框架是知识的基本单位,把一组有关的框架连接起来便可形成一个框架系统。框架表示法善于表示结构性知识,能够把知识的内部结构关系以及知识间的特殊联系表示出来。框架由一组描述物体的各个方面的属性(槽)组成。每个属性又可包含若干侧面,每个侧面都有自己的名称和值。
语义网络:
语义网络是一种采用网络的形式表示人类知识的方法。一个语义网络为一个带标识的有向图,其中带有标识的节点表示问题领域中的物体、概念、事件、动作或势态,节点之间的有向弧表示节点之间的语义联系,如图1-10所示。
图1-10 语义网络知识表示法
(4)知识推理机制:
推理机是知识库系统问题求解过程必不可少的机制,其功能是根据一定的推理策略从知识库中选择有关知识,对用户提供的事实进行推理,直到得出相应的结论为止。推理机中应包含与领域知识无关的问题求解控制策略、知识搜索技术及冲突解决技术。
推理的控制策略及分类:
推理的控制策略是指如何使用领域知识使推理过程尽快达到目标的策略。包括推理方向控制策略、求解策略、限制策略、冲突消解策略等。推理方向用来确定推理的控制方式,即推理过程是从初始证据开始到目标,还是从目标开始到初始证据,按照对推理方向的控制,推理可分为正向推理、逆向推理、混合推理及双向推理4种方式。求解策略是指仅求一个解,还是求所有解或最优解等。限制策略是指对推理的深度、宽度、时间、空间等进行的限制。冲突消解策略是指当推理过程有多条知识可用时,如何从这多条知识中选出一条最佳知识用于推理的策略。
知识搜索技术:
一个问题的求解过程,实质上是从开始状态,利用规则进行状态的改变,一直到达目标状态。把状态的改变连接起来就成了搜索路径。一个状态可通过不同的规则到达多个不同的状态,如果对每个可能的状态都展开其搜索路径,将形成一棵搜索树。搜索树按二叉树考虑,随着深度(状态连续改变数)n的增加,树的节点数将以2n的个数迅速增加,若盲目搜索,搜索时间就以2n时间增加。智能问题的搜索时间一般属于指数时间执行,会产生组合爆炸现象,因此,需要采取有规律的搜索方法以减少搜索树中的盲目搜索,缩短搜索时间。
推理的冲突消解策略:
冲突消解的基本思想是对可用知识进行排序。目前,常用的冲突消解策略有:特殊知识优先、新鲜知识优先、差异性大的知识优先、领域特点优先、上下文关系优先、前提条件少者优先。
(四)关键技术
1.数据仓库
(1)概念:
关于数据仓库的定义尚没有统一的说法,其中被广泛认可的定义是数据仓库之父Bill Inmon在1991年出版的 Building the Data Warehouse一书中所提出的,数据仓库(data warehouse,DW)是一个面向主题的(subject oriented)、集成的(integrated)、相对稳定的(non-volatile)、反映历史变化(time variant)的数据集合,用于支持管理决策(decision making support)。
(2)特性
面向主题性:
数据仓库中的所有数据都是按照某一主题进行组织的。由于数据仓库的使用者均为机构的管理者和决策者,这些人需要的数据都是较高层次的、综合的、归纳的、抽象的管理数据,而非业务处理系统中面向事务处理的数据,因此数据仓库的建设和使用都是围绕主题实现的。例如,一家医院可能同时存在多个业务处理系统,检验科有检验信息系统、药房有药品信息系统、门诊有门诊信息系统,这些系统的数据都是面向某一事物处理的,如检验信息系统中的数据是面向“检验”这个事务处理的。但是作为医院的院长,在管理和决策过程中并不需要这些原始的业务数据,而是例如“病人”、“病床”、“医生”、“收入”等面向主题的数据。
集成性:
数据仓库中的数据是将分散在各个业务处理系统数据库中的数据按管理决策需要的主题进行抽取、清洗、加工、汇总、整理而得来的,具有高度的集成性。数据仓库中的数据并非直接来自业务活动,而是从业务处理系统中获得。由于不同的业务处理系统中的数据均是面向不同业务活动的,因此不能直接将业务处理系统中的数据直接拷贝到数据仓库中,需要对业务数据进行一系列的数据预处理,即对来自于不同数据库中的数据按照统一的标准进行规范,消除数据单位、长度、编码规则、含义等的差异。
稳定性:
数据仓库中的数据大多是用来表示过去一段时间的数据,主要用来查询,并且这些数据是被长期保存的,而非业务处理系统中的数据需要根据业务处理活动进行实时添加、修改、删除,因此数据仓库中的数据具有稳定的特性。由于数据仓库中的数据主要是面向管理者和决策者服务的,因此对数据仓库的绝大多数操作均是查询操作,此外数据仓库会定期从业务处理系统中抽取数据并进行添加操作,除非数据仓库中的数据是错误的,否则数据仓库中的数据是不进行修改和删除操作的。基于这种特性,可以使不同的用户在不同的时间查询相同的问题时,得到相同的结论,从而满足科学决策的需要。
反映历史变化:
由于数据仓库中的数据是历史数据,并且是按照时间推移而不断发生变化的,因此通常包含历史信息,系统记录了一个机构从过去某一时点到目前的各个阶段的信息。数据仓库能够按时、不间断地从业务处理系统中捕获变化的数据,并将这些数据保存至数据仓库中,相当于在数据仓库中不断生成业务处理系统数据库的快照,这些快照是业务处理系统某一时刻的状态,将历史各个时刻的快照综合进行时间序列分析,就可以对机构的发展历程和未来趋势作出定量分析和预测。
支持决策:
数据仓库建设和使用的根本目的是支持决策。由于管理者和决策者通常无法从繁多且结构不一的业务数据中获取与管理决策相关的数据,因此传统的业务数据库并不能满足决策的需求。通过建设数据仓库,各个层次的管理者和决策者均能够通过查询数据仓库中的数据,获取直接可以用于管理决策的关键数据,通过对这些数据进行分析和利用,提升科学管理质量和决策水平。
(3)结构:
数据仓库总体结构可以分为三层,即数据仓库应用层、数据仓库管理层、数据仓库环境支持层,图1-11为数据仓库的结构图。
图1-11 数据仓库总体结构图
数据仓库应用层主要包括:按主题抽取业务数据库中的数据;清洗、加工、汇总数据并将数据加载到数据仓库核心数据库中;根据用户需求建设数据集市;实现数据仓库查询、智能分析、数据挖掘等功能;并最终通过用户界面进行展现。
数据仓库管理层主要是对数据仓库的维护、管理,包括对数据源的管理,对数据抽取的管理,对数据清洗加工的管理,对元数据的管理等。
数据仓库环境支持层主要包括数据传输、网络环境、物理环境等。
1)数据源:
是数据仓库的数据来源,包括业务数据、历史数据、外部数据以及其他数据。
其中业务数据来源于机构的各个业务处理系统,由业务活动产生并实时更新,这些数据通过关系型数据库、非关系型数据库或文件系统被保存在业务数据库中,可以通过数据抽取的方法加载到数据仓库中。
历史数据是指业务处理系统中的历史备份数据,通常以磁带、磁盘、光盘等载体进行脱机保存,这些数据虽然已经不参与业务处理系统的运行,但对于数据仓库的用户却有重要的利用价值,尤其进行数据挖掘时,需要大量的历史数据。
外部数据是机构以外获得的各种数据,包括web数据、外部数据库的数据、其他机构发布的数据、政府发布的政策信息等等,这些数据对于决策也具有较高的利用价值。
2)数据准备区:
由于数据仓库的数据来源复杂,数据格式不统一,因此需要将数据源的原始数据通过数据准备区中的抽取、清洗、加工、整合等一系列处理,最终形成面向主题的、统一规范的数据,并加载进数据仓库核心数据库中。
数据抽取顾名思义就是数据仓库按照用户设定的主题,从各种不同类型数据源以及不同类型存储介质中读取与主题相关的数据,分为全量抽取和增量抽取两种。
数据清洗是指去除抽取数据中“脏数据”的过程,因为抽取的数据来自多个不同的业务处理系统,并且存在大量的历史数据,这样就避免不了有的数据是错误的、有的数据相互之间是冲突的,这些错误的或有冲突的数据称为“脏数据”,需要按照一定的规则把“脏数据洗掉”,这就是数据清洗。
数据加工是指数据仓库对清洗后的数据进行标准化的处理,由于不同的业务处理系统大多是由不同的团队设计并开发的,他们的数据结构及数据库设计大多存在较大差异,因此抽取后的业务数据存在元数据格式不统一的现象,这时需要按照统一的元数据标准,对这些异构的数据进行标准化处理,形成格式统一、数据类型统一、数据长度统一、编码规则统一的标准数据。
数据整合是指数据仓库对加工后的数据进行汇总并做最后验证的过程,尽管原始数据经过清洗和加工后,已经形成较为统一的标准数据,但仍然需要对其做一些诸如逻辑校验、有效性校验、真实性校验等工作,保证进入数据仓库中的数据都是真实、规范、完整的数据。
3)数据仓库核心数据库:
数据仓库核心数据库包括数据重整、数据仓库创建以及元数据管理三部分功能。
数据重整是指数据仓库为更好地为用户服务而进行的一系列预操作,包括数据的集成、分解、预计算、推导等内容。根据用户使用需要,数据仓库中的数据可能是原始数据的多个数据块,需要按照不同维度进行拆分,或者按照某些规则对分散的原始数据进行集成,同时为提高数据仓库的使用效率,需要对用户某些常规操作进行预先计算或处理,例如预先计算出年累计数据是由各月数据叠加而成。
数据仓库创建是数据仓库的核心功能,包括建模、数据聚集、结构化查询等功能。在数据仓库模型的设计中,需要完成数据分割、主题域确定和数据粒度确定,以及数据模型构造。由于数据仓库中的数据量十分巨大,进行查询分析时所需时间相当长,对于用户是无法接受的,需要根据一些典型的查询需求,对数据仓库中的数据进行聚集处理,同时对于结构化查询,可以预定义常用的结构化查询作为元数据存储在元数据库中,当用户进行数据仓库的查询时可以快速从元数据库中读取,大大提高运行效率。
4)数据集市:
数据集市(datamart),也叫数据市场,是一个从操作的数据和其他的为某个特殊的专业人员团体服务的数据源中收集数据的数据仓库。数据集市是小型的数据仓库,是数据仓库逻辑上或物理上的子集,也是更加专业的数据仓库。数据集市是面向某一部门或某个领域用户设计的,因此数据集市的规模较小,数据量也不大,但是由于分析的内容较为单一而且集中,因此数据粒度、数据精度、数据准确度和使用效率都超过数据仓库。同时,由于数据集市的规模小,建设难度和成本都低于数据仓库,在预算和时间较为紧张的建设初期,可以采用先建立某些领域的数据集市,再不断完善,最终构建成完整的数据仓库。
5)数据分析利用:
数据分析利用是为用户使用数据仓库提供的一系列工具,使用户可以从数据仓库或数据集市中查询数据,进行数据挖掘或进行多角度多维度分析等,包括分析工具、数据挖掘工具、报表工具等。例如地理信息系统(geo-information system,GIS)、联机分析处理系统(OLAP)、经理信息系统(executive information system,EIS)、统计工具、可视化展现工具、浏览器、图形界面、电子表格等均属于这类工具。用户通过这些工具,可以对数据仓库和数据集市中的数据进行更深层次的分析和利用,并且可以获得利于决策的高层次抽象数据和可视化图表。
(4)数据仓库与数据库的区别:
数据仓库和数据库是很容易混淆的两个概念,数据仓库是由数据库演变而来,二者的基本功能都是对数据的存储和处理,但他们存在很大的差异,表1-2展示了两者之间的差异。
表1-2 数据仓库与数据库差异
传统数据库是面向事物处理的,保存当前的业务数据,主要服务于业务人员,其数据结构较为复杂,没有冗余数据,数据根据业务处理情况实时更新,查询时访问的数据量较小。
数据仓库是面向主题的,保存历史数据,主要服务于管理人员,数据结构较为简单,但由于面向主题,各个主题之间会存在数据冗余,数据被定时抽取、清洗、加工并加载进数据仓库,查询时访问的是大量的历史数据。
2.联机分析处理
(1)概念:
联机分析处理(on-line analysis processing,OLAP)这一概念是由关系型数据库之父E.F.Codd于1993年提出的,也称为在线分析处理,是一种专门用于复杂决策分析,支持信息管理和管理人员决策活动的一种决策分析工具,是一个得到广泛应用的数据仓库使用技术。它可以根据分析人员的需求,迅速灵活地对大量历史数据进行复杂查询和多维分析,OLAP的定义可以简单概括为共享多维信息的快速分析。
(2)特性
在线性:
OLAP技术应用于客户机/服务器(C/S)架构中,通过网络对数据仓库中的数据进行分析和处理,因此不必考虑存储介质和存储位置等问题。
快速性:
OLAP技术通过采用专门的数据存储格式、大量的事先运算和特别的硬件设计,实现了快速的反应能力,能够在较短的时间内对大量的历史数据进行分析,并且能够保证分析质量。
可分析性:
OLAP技术可以实现任意逻辑分析、数值分析和统计分析,用户不需要事先大量编程进行运算类型定义,OLAP可以胜任各种类型的复杂分析并且可以按照用户的需要输出文字、数据或者图表。
多维性:
OLAP技术的核心就是多维分析,用户可以从多个不同的维度或多个不同的主题中分析出需要的信息,这是OLAP技术区别于其他分析工具的最大特点。
(3)常用操作
钻取:
钻取是一种不改变维度,只改变数据粒度的操作,包括上卷和下钻两种。上卷是从颗粒较小的微观层向颗粒较大的宏观层钻取的过程,用来查看数据的汇总情况;而下钻则是从颗粒较大的层向颗粒较小的层钻取,以便观察数据的明细情况。例如,分析某医院2011年的收入情况,其中门诊收入是1亿元,分析人员如果想了解整体收入情况,就需要上卷至“医院总收入”这一颗粒更大的数据,而如果想了解更加详细的门诊收入情况,就需要下钻至“各科室门诊收入”这一颗粒更小的数据。
切片和切块:
切片和切块是选择指定维度的具体数据,分析该指定数据下其他维度数据情况的操作。其中切片是指定某一个维度的数据,而切块是指定两个及两个以上维度的数据。例如,分析某医院2011年的收入情况,其中门诊收入是1亿元,分析人员进行绩效考核,想了解2011年外科各个医生的门诊收入情况,则需要进行切块操作,即指定时间维度=2011,科室维度=外科,得到外科各个医生在2011年门诊收入的情况。
旋转:
旋转是指改变维度方向的操作,可将多维数据中的不同维进行交换显示,为用户提供更加自由、便捷的对不同维度之间的分析,例如改变某一表格的行列,改变排列顺序等。
(4)分类:
根据数据组织方式的不同,可以分为三大类:关系联机分析处理(relational-OLAP,ROLAP)、多维联机分析处理(multidimensional-OLAP,MOLAP)和混合联机分析处理(hybrid-OLAP,HOLAP)。
ROLAP:
将分析用的多维数据存储在关系数据库中,并根据用户应用的需要有选择地将一批数据库查询结果作为表。同时存储在关系数据库中,这些查询结果称为实视图。但并不是将每一个实视图都作为表保存,只需要保存应用频率较高、计算量较大的查询。对每个针对OLAP服务器的查询,优先利用已经计算好的实视图生成查询结果以提高查询效率。同时用作ROLAP存储器的关系型数据库管理系统(RDBMS)也针对OLAP作相应的优化,比如并行存储、并行查询、并行数据管理、基于成本的查询优化、位图索引、SQL的OLAP扩展(cube,rollup)等等。
MOLAP:
在物理上将分析用的多维数据存储为多维数组的形式,形成“立方体”的结构。维的属性值被映射成多维数组的下标值或下标的范围,而总结数据作为多维数组的值存储在数组的单元中。由于MOLAP采用了新的存储结构,从物理层实现多维数据存储,因此又称为物理OLAP(Physical-OLAP)。
HOLAP:
由于ROLAP和MOLAP有着各自的优点和缺点(如表1-3所示),且它们的结构截然不同,这给分析人员设计OLAP结构提出了难题,为此一个新的OLAP结构“混合型OLAP(HOLAP)”被提出,它能把两种结构的优点结合起来。迄今为止,对HOLAP还没有一个正式的定义,但HOLAP结构并不是ROLAP与MOLAP结构的简单组合,而是这两种结构技术优点的有机结合,能满足用户各种复杂的分析请求。
表1-3 ROLAP与MOLAP差异
3.数据挖掘
(1)概念:
数据挖掘(data mining)一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性(属于association rule learning)的信息的过程,是数据库知识发现(knowledgediscovery in databases,KDD)中最为关键的一个步骤。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、神经网络、专家系统和模式识别等方法来实现。
数据挖掘是深层次的数据分析,与传统分析工具有着很大的差异,表1-4是传统分析工具与数据挖掘工具的差异,其中传统分析工具主要用于回顾、验证数据,分析已经发生的事件,而数据挖掘是预测和发现新的、未知的事件或是发现已经发生事件的原因。
表1-4 传统数据分析工具与数据挖掘工具的差异
数据挖掘的基本功能包括:
概括:
是指提取数据库中用户指定的数据集合的一般特性。
关联:
从关系数据库中提取关系规则,它们展示属性—值对频繁地在给定数据集中一起出现的条件。
分类和预测:
把新的记录分配到预先定义好的类中,它首先找出对象或概念的模型,以便能够使用模型预测类标记未知的对象。
聚类:
是按照类内相似性最大,类间相似性最小的原则,对数据集合进行分组,以产生数据的类标记,最后形成若干个对象类。
孤立点分析:
数据库中可能包含一些数据对象,它们与数据的一般行为或模型不一致,这些数据对象是孤立点。在一些应用中,罕见的事件可能比正常的事件更有价值。
演变分析:
描述行为随时间变化的对象的规律或趋势,通常用时序模式来表示。
(2)数据挖掘技术的分类
统计分析:
统计分析技术使用线性分析、非线性分析、回归分析、单变量分析、多变量分析、时间序列分析、最临近算法和聚类分析等,利用这些技术对异常形式的数据进行检查、分析,并应用各种统计模型和数学模型进行解释,寻找异常数据背后的原因。在所有的数据挖掘技术中,统计分析技术是最成熟的一种,并已经得到了广泛应用。
知识发现:
知识发现是从海量的数据中筛选出有用的信息,并利用人工智能的技术对其进行分析、处理和归纳,发掘人们所未知的规律和事实。知识发现技术包括人工神经网络、决策树、遗传算法、粗糙集、规则发现和关联顺序等。
其他技术:
其他数据挖掘技术包括文本数据挖掘、web数据挖掘、分类系统、可视化系统、空间数据挖掘和分布式数据挖掘等。
(3)数据挖掘的过程:
一个典型的数据挖掘系统架构如图1-12所示,进行数据挖掘需要确定对象、数据预处理、建立模型、数据挖掘、结果分析与知识应用等步骤。
图1-12 数据挖掘系统架构
确定对象:
进行数据挖掘首先要选择挖掘对象,数据挖掘的结果往往是不可预知的,但是进行数据挖掘并不是盲目的,需要先对数据挖掘的对象有一个目标,确定挖掘哪些数据、挖掘多少数据、挖掘到什么程度等等。
数据预处理:
选定挖掘目标后,需要对待挖掘的数据进行预处理,包括对数据的选择、清理、集成等。数据选择是指在数据库、数据仓库或其他数据中选择出待挖掘的数据。由于数据仓库是面向主题建立的,因此如果待挖掘的数据来自于数据仓库,则选取数据的过程相对简单,只需要按照主题抽取出所需的数据即可。对于来源于数据库中的数据则需要将来源于不同数据库中的数据保存至单一的数据挖掘库中来,并对这些数据进行清洗、格式化、标准化等操作,这与建立数据仓库前的数据处理步骤类似。同时,为保证数据挖掘的准确性,无论数据来源于何种数据库,最终都需要对数据进行清洗,解决缺值、冗余、编码标准不一致、数据定义不一致、无效数据等问题,有时还需要对数据进行分组以提高挖掘效率。
建立模型:
建立数据挖掘模型是数据挖掘的关键步骤,建立模型首先需要对数据进行分析,选择具有较好预示值、较高分析价值的变量,减少无关变量的加入。选择合适的变量后,构建出新的、利于理解、便于分析的分析变量。下一步需要从数据中选取一个子集或样本来建立模型,由于使用所有数据进行建模会耗费大量的时间,因此使用随机挑选的子集建立模型是广泛应用的一种方法。最终根据已有的知识对模型进行评估,选择出最符合实际规则的模型进行分析。由于建模是一个迭代过程,因此往往需要进行几轮建模的过程才能得出一个科学、合理、可行的挖掘模型。
数据挖掘:
应用挖掘模型对经过预处理的数据进行挖掘,除少数需要人工选择的算法外,大多数数据挖掘工作都是自动完成,不需要人工参与。
结果分析:
数据挖掘过程结束后,将得到一系列挖掘结果,但这些结果并不一定是用户需要的或并不是符合实际情况的。这是由于数据挖掘是一种知识发现的过程,预先并不知道最终的结果,而且大多数建模是基于样本数据完成的,在大规模数据应用时可能出现偏差,因此在使用挖掘结果之前,需要对其进行分析评估,确保挖掘结果在实际应用中的成功率。结果分析多使用可视化分析工具,这样可以清楚地表现出挖掘效果。
4.人工智能
(1)概念:
人工智能(arti fi cial intelligence,AI)也称作机器智能,是研究如何制造出人造的智能机器或智能系统,来模拟人类智能活动的能力,以延伸人们智能的科学,即研究如何让计算机完成那些过去只有人才能做的富有智能的工作。人工智能主要包括计算机实现智能的原理、制造类似于人脑智能的计算机、使计算机能实现更高层次的应用等。人工智能与基因工程、纳米技术并称为21世纪三大尖端技术。
由于计算机和人脑存在较大差异,表1-5展示了计算机和人脑在某些指标上的差异。由于存在这些差异,因此人在语言理解、决策等方面强于计算机,而计算机在数值计算、数据存储与查询、绘图等方面远胜于人脑。人工智能就是使计算机像人一样思考、行动或能够进行理性地思考、行动的技术。
表1-5 计算机与人脑的差异
(2)人工智能的主要研究领域
演绎推理:
演绎推理是人工智能基本内容,也是最早发展人工智能的初衷,早期的人工智能研究都是基于演绎推理进行的,人工智能研究人员直接模仿人类进行逐步的推理。最具代表的就是下棋程序,通过人类归纳总结的棋谱,制定若干的推理算法和知识库,使计算机代替人脑来选择每一步的下法。但演绎推理是基于人类归纳出的知识库,因此并不能解决人类尚未知晓或没有规则的问题。
知识表示:
知识表示的主要目标是将人类的知识转换为计算机语言,进行存储并使计算机程序可以处理。涉及的问题有:知识的本质是什么、如何表示它、某种表示法应该只用在某个领域还是应该通用于所有领域、某种知识表达方案的表现能力如何、表示法应该是描述性的还是程序性的等。目前这个领域仍然没有一个完美的答案。
机器学习:
机器学习的主要目标是计算机可以利用各种已有的数据或以往的运算结果,自动地对计算机算法的性能、效果、质量进行优化,可以分为监督学习、半监督学习、无监督学习等几类。监督学习是从给定的训练数据集中总结归纳出函数,当新的数据到来时,可以根据这个函数预测结果。监督学习的训练集包括输入和输出,即特征和目标,其中目标是由人为确定的。常见的监督学习算法包括回归分析和统计分类。无监督学习与监督学习的区别是训练集没有人为干预,常见的无监督学习算法有聚类。半监督学习则是介于监督学习与无监督学习之间。
自然语言处理:
自然语言处理的主要目标是使计算机可以理解人类的语言,并且可以将人类的自然语言转化为计算机程序可以处理的形式。自然语言处理包括文本朗读、语音合成、语音识别、中文自动分词、词性标注、句法分析、自然语言生成、文本分类、信息检索、信息抽取、文字校对、问答系统、机器翻译、自动摘要等内容。
人工神经网络:
人工神经网络是一种应用类似于大脑神经突触连接的结构进行信息处理的数学模型,简称为神经网络或类神经网络。人工神经网络是由大量处理单元(神经元)互联组成的非线性、自适应信息处理系统。它是在现代神经科学研究成果的基础上提出的,试图通过模拟大脑神经网络处理、记忆信息的方式进行信息处理。人工神经网络是并行分布式系统,采用了与传统人工智能和信息处理技术完全不同的机理,克服了传统的基于逻辑符号的人工智能在处理直觉、非结构化信息方面的缺陷,具有自适应、自组织和实时学习的特点。
模式识别:
模式识别是指对表征事物或现象的各种形式的(数值的、文字的和逻辑关系的)信息进行处理和分析,以对事物或现象进行描述、辨认、分类和解释的过程。模式还可分成抽象的和具体的两种形式。抽象的模式识别是对意识、思想、议论等抽象事物的识别,称之为概念识别。具体的模式识别主要是对声音、图像、文字、符号等具体对象的识别。
专家系统:
专家系统是一个智能计算机程序系统,通过内部已有的大量的某领域专家水平的知识与经验,利用人类专家解决问题的方法来处理该领域问题。专家系统是一个具有大量的专门知识与经验的程序系统,它应用人工智能技术和计算机技术,根据某领域一个或多个专家提供的知识和经验,进行推理和判断,模拟人类专家的决策过程,以便解决那些需要人类专家处理的复杂问题。专家系统是目前人工智能中最活跃、最有成效的一个研究领域。人类专家由于具有丰富的知识,所以才能拥有优异的解决问题的能力。计算机程序如果能体现和应用这些知识,也应该能解决人类专家所解决的问题,而且还能帮助人类专家发现推理过程中出现的差错,如在矿物勘测、化学分析、规划和医学临床诊断方面,专家系统已经达到了人类专家的水平。