数字化时代中国企业国际化战略研究
上QQ阅读APP看书,第一时间看更新

第三节 认知大数据的分析原则

目前,大数据的起源大致分为三类:①未提出“大数据”词眼,但蕴含“大数据”现象。有学者认为大数据最早源起于19世纪80年代美国第十次人口普查,虽然当时没有提出“大数据”词眼,但当时的数据集已经庞大复杂到超出了传统的处理技术和能力(Ohlhorst,2012)。②提出“大数据”词眼,但不蕴含“大数据”现象。例如,有学者认为在公开场合首次提出“大数据”一词可视为大数据源起,但是此观点很快被有力的证据所推翻,如1984年Tilly发表的论文和1989年Larson发表的论文都指出了“big data”一词,但与如今的“大数据”术语毫无关系,只是简单的“big”和“data”的偶然组合。③提出“大数据”词眼,并蕴含“大数据”现象。有学者认为1997年Cox和Ellsworth发表的论文《科学可视化的大数据管理》已相对准确地指出大数据是单个数据对象(或数据集)太大,无法用一般算法与技术进行处理和可用硬件进行存储的数据,应是大数据源起的重要学术参考文献(Wu et al.,2016)。

大数据精确地映射了人类社会活动的全景图(Hacking,1991)。人们期望通过借助以计算机为基础的数据分析技术来破解大数据世界运行的黑箱,以获取对真实世界的理解,这背后的假设是数据量与精确性的交易。然而,当大数据处理能力远超人类认知时,人类是否造就了打开黑箱的另一个黑箱?为保证对大数据系统的控制,大数据必须满足人类的理解能力、推理能力和解释能力。

第一,可理解。可理解指应用者对大数据分析系统具有完全的掌握能力。大数据涉及复杂的类型、复杂的结构和复杂的模式,数据本身具有很高的复杂性,目前人们对大数据背后的物理意义缺乏理解、对数据之间的关联规律认识不足,对大数据的复杂性和计算复杂性的内在联系也缺乏深刻理解(李国杰,2015)。只有充分理解数据类型、结构和模式,理解数据之间关联的奥秘才可能打开从微观到宏观“涌现”规律的突破口;只有充分理解大数据技术涉及的算法的局限性以及应用者研究问题的边界,才能把握这些算法以及研究问题的边界会引致什么样的误差和偏向,进而决定对大数据分析结果施以多大程度的信任和限制。因此,认知大数据分析应当是人类和机器可以共同理解的,即人类与机器之间信息对称。一方面,应用者要能够理解数据访问边界、系统阈值和技术手段,并利用大数据分析的结果来促进自身的理解。另一方面,机器可以理解人类的意图和研究问题的情境,并不断扩展技术包容性和开放性。例如,各大平台采用个性化协同推荐(Personalized Collaborative Recommender)算法追踪用户的每一个行为(如交易记录、页面浏览和评价等),为用户智能推荐个性化信息。

第二,可推理。可推理指在资源无限的条件下,应用者能够通过自身认知推理过程,获取与大数据分析呈现的相同结果。认知大数据的分析能将人类经验空间的知识和智慧与数据空间的数据和信息相匹配、相关联,推理数据之间的多模态、多层次和跨时空的关系。首先,人类根据获取的大数据信息,在认知层面对大数据进行关联、推理和总结,形成一种思维模型的复式框架以便大数据分析的有效利用。其次,面对爆炸式增长的大数据,人类对于大数据的认知是一个随着人类知识经验缓慢累进的动态过程,利用人类认知反馈系统,将有效推理过程保留,舍弃不适用于大数据分析的推理能力,形成认知推理能力螺旋式上升系统,同时也促进机器进行数据关联和推理算法积累。例如,世界一级方程式赛车锦标赛中,每辆赛车的传感器产生的数据可以帮助赛车手分析车辆部件的技术性能以及自身赛程反应。借助大数据从比赛结果推理出每一个近在咫尺且映射成功或失败的促成性因素,绘制出赛程行为细粒推理图(George et al.,2014)。

第三,可解释。可解释赋予大数据分析以现实意义。Glasersfeld(1998)指出相关性并非必然被拒绝,有效的相关性仍然可以作为解释现实世界运行的重要补充机制。可解释是大数据分析的重要体现之一,是分析结果被决策人员采信的前提。但这不是意味着对大数据分析的每一个步骤、大数据技术原理和实现细节进行解释,而是在适当的时候提供说明或解释,包括背后的逻辑和数据,使大数据分析后续行为和决策实现透明和可信,从而减轻人类的认知负担。例如,有些研究者会通过“文字云”(Word Clouds)技术可视化权威期刊中的关键词,以此来确定目前的研究趋势以及热点。但要确切地从众多研究趋势和热点中确定自己未来研究方向,需要对其进行预判,并提供合理的解释支撑研究导向。