1.2 可视分析
新时期科学发展观和工程实践表明,智能数据分析所产生的知识与人类掌握的知识的差异是导致新知识被发现的根源。表达、分析与检验新知识需要充分利用人脑智能。并且,目前大多数自动数据分析方法对复杂、异构数据的模式和规律分析经常失效,具体表现在无法直接检测出数据中蕴含的新模式、参数设置困难、无法产生“直觉”“联想”等人类智能分析问题时的特有优势等。人类的视觉识别能力和人脑的智能分析恰好可以辅助这些问题的解决。从数据和分析任务角度看,在解决实际问题时所遇到的数据通常是复杂且含有大量噪声的,分析者需要以适合的方式进行干预和排除;在面对复杂、不确定或紧急任务时,自动数据分析方法的可信度、可解释度问题都会影响任务处理的效果。因此可视化作为一种有效结合人脑智能和机器智能的方式,将“只可意会、不可言传”的人类知识和个人经验融入到整个数据分析和推理决策过程中。这一过程逐渐形成了可视分析这一交叉信息处理的新思路。2004年美国国土安全部为了应对恐怖袭击成立了国家可视分析中心,2005年发布的“可视分析研究和发展规划”报告全面阐述了可视分析的挑战。2006年起,IEEE开设了可视分析方面的专门国际会议,欧洲可视化年会也从2010年起开始专门举办可视分析研讨分会。
可视分析被定义为一门以可视交互界面为基础的分析推理科学,它综合了信息可视化、数据挖掘和人机交互等技术,以可视交互界面为通道,将人的感知和认知能力以视觉方式融入数据处理过程中,形成人脑智能和机器智能优势互补和相互提升,建立螺旋式信息交流与知识提炼途径,完成有效的分析推理和决策。图1-1诠释了可视分析学这一综合性学科所包含的研究内容,其中包括与图形相关的信息可视化、科学可视化和计算机图形学,与数据分析相关的统计、机器学习、数据挖掘,以及人机方面的人机交互、认知科学等。
图1-1 可视分析学所涉及的基础学科
1.2.1 交互式可视分析框架描述
作为可视分析领域的奠基人,Daniel Keim等人提出了可视分析的基本框架(图1-2),其分析过程由初步的数据处理开始。数据处理的目的是为了支持后续的可视化和自动分析任务,接下来数据将进入可视化方法或自动方法两条分析路线。其中,自动分析方法主要使用统计或数据挖掘模型对数据进行建模,进而展现出数据中的特征和信息;可视化方法则支持用户直接对数据进行查看、探索和分析。分析者根据当前分析任务和两条分析路线所得出的结果,针对性地对自动方法中的模型参数或是可视化方法中的视觉映射进行修改,进而修正方法并输出结果。这种根据两种分析路线得出的结果进行修改,得到新的结果,并迭代式更新的方法,是可视分析基本框架的核心特征和优点。
图1-2 Daniel Keim等人提出的可视分析基本框架
1.2.2 可视分析的新方向
Ben Shneiderman描述了数据分析方法的目标阶段,其中包括:
①描述事物属性,解释已有的发展过程;
②对未知事物及其发展进行预测;
③提出应对未来事物发展的指导性方针;
④提出新的想法,来改善前述三类目标中的方法。
其中,用于解决前三个分析目标的方法分别称为描述性分析方法、预测性分析方法和指导性分析方法,而第四个阶段则指向如何对前三类方法进行创新。图1-3描述了三个分析阶段的方法特点和能够完成的任务。
图1-3 描述性分析方法、预测性分析方法和指导性分析方法的对比
作为一门分析学科,早期的可视分析工作主要集中在描述性分析阶段,主要面向针对历史已有数据的归纳、总结和展示。近五年来,随着数据挖掘、机器学习等相关领域的蓬勃发展,大量可视分析方法开始引入预测性分析概念,支持对预测模型(如分类模型、回归模型等)的参数调整、结果理解和知识提取等。指导性分析作为可视分析的下一个努力方向,其要点在于根据过去已有数据和对未来结果的预测,使用可视分析手段帮助分析者提出应对未来发展的指导性方针,即支持决策制订。目前微软Power BI和IBM Cognos Analytics已开始加入部分指导性可视分析功能。
后续章节将通过详细阐述两个描述性分析和简要展示两个预测性分析案例,来揭示可视分析方法在各个相关领域的应用。