数字化时代中国企业国际化战略研究
上QQ阅读APP看书,第一时间看更新

第二章 大数据的技术分析理论研究

第一节 大数据分析的内涵

一般意义上的大数据分析指收集、组织和分析大量离散数据以揭开隐藏的系统模式、关系或者其他有意义的洞察,并获取结论的过程(Wang et al.,2018)。目前,越来越多的研究者以大数据指代一系列以大数据集合作为基础进行数据分析的范式(Blazquez & Domenech,2018;Wamba et al.,2017;Wang et al.,2018)。大数据技术关注大数据术语的语用意义,强调企业如何获得以及使用对大数据集合进行分析的现实技术,以及基于大数据范式的社会经济应用(Buyya et al.,2016)。作为典型的复杂数据系统,大数据的动态、非线性和跨尺度要求组织能够通过同时使用系统等级和个案等级的技术,对不断涌现的结构化和欠结构化数据进行自动的整理、挖掘和呈现,以从中获取跨尺度的重要信息和洞见,实现从大数据到大影响的演化(Bar-Yam,2016;Chen et al.,2012)。不同的研究者从不同的视角给出了这一路径的具体内涵,如表2-1所示。

表2-1 大数据分析的内涵

续表

一 大数据分析技术结构

大数据技术的起点在于从原始数据中构建数据集合仓库,仓库对数据的吞吐则构成了大数据生态的主要活动。数据仓库的构建依赖于原始数据到大数据的数据集合处理的输入过程。数据集合处理指针对原始数据的处理技术,包括数据收集、数据清洗、数据整合、数据准备、数据归档和存储等步骤(Blazquez & Domenech,2018)。从非传统社会经济来源获得的数据通常是庞大的、异质的、非结构化或半结构化的。这些特征意味着在检索、处理、分析和存储数据时会遇到许多挑战。因此,处理机器学习和大数据中处理原始数据的方法和技术正在开发中。许多这样的方法已被广泛应用于其他领域,如工程、医学和生物统计学。尽管它们有处理社会经济数据的潜力,但它们在大数据分析的整个过程中仍处于早期阶段(Varian,2014)。

1.数据收集

这个阶段包括访问数据源和收集初始数据或原始数据。根据开发项目所需的知识和数据,这个阶段的活动包括现象观察、实验、记录、模拟、抓取和与第三方协商。

2.数据清洗

这一阶段包括记录所获得的数据并检查它们的质量。首先,应该通过将数据与元数据关联来记录数据获取过程。元数据包括与来源、数据格式、检索过程和访问日期的技术细节相关的信息,从而支持数据的二次利用和正确引用。第二,保证数据的质量和有效性。它需要验证数据源和自身数据的可靠性,控制任何数据不一致性,如意外值和键入错误,并在必要时清理和匿名数据。

3.数据整合

这一阶段是将不同数据源的数据以一致、同构的结构进行融合,使数据具有可追溯性和批量操作的可能,便于后续项目的访问和使用。这包括将不同数据源的变量之间的关系制表、调整单元、翻译和创建一个包含所有获取数据的单一数据库。数据集成还应该包含隐私约束,以避免在集成的数据中泄露一些私有信息。这是一个主要的伦理问题,因为丰富的综合数据可能会无意间泄露个人信息。

4.数据准备

这一阶段包括转换数据,使其满足将要应用的分析工具和技术的格式要求。这包括诸如转录、数字化、内插、在数据集中建立表格格式以及通过对现有数据的操作获得新数据等活动。

5.数据归档和存储

这个阶段包括对收集、处理和分析的所有数据进行归档和注册,以便长期保存、管理和二次利用。操作包括将数据存储在特定存储库或计算系统中、将它们迁移到其他平台或媒介、定期备份数据、生成相关的元数据、预处理生成的文档、控制数据安全和隐私、处理相关法律问题等。

二 内容演化与商业情报分析

决策是组织及其活动的基础,如何从复杂、混沌、庞杂的数据集合中提取有意义的信息和洞见并使之支持组织决策,这是大数据技术关注的第一个要点。在Simon的决策理论中,决策可以分为情报、设计和选择三个阶段(Simon,1960)。在情报阶段,决策者需要尽可能地收集环境中与问题相关的信息,为设计阶段发明、开发和分析所有可能的行动过程以达成决策目标做准备。而在选择阶段,决策者根据自身知识信念,从设计阶段的方案中选择一种特定的行动方案。Luhn(1958)随即提出了一个早期的商业情报系统:一个利用数据处理机器对文档进行自动抽象和自动编码,并为组织及组织内部单位提供合适行为信息的系统。而在目前大数据时代,商业情报指一种数据驱动的决策支持系统,包括竞争情报等子系统。它将数据收集、数据存储和知识管理分析结合起来,为决策过程提供情报输入(Negash & Gray,2008)。商业情报强调对组织及其运营过程中产生及获取的大量数据进行分析并得到有意义的信息。

Chen等(2012)根据数据内容,将目前的商业情报发展划分为三个阶段。目前在工业上采用的BI&A技术和应用程序可以看作BI&A 1.0,其中的数据大多是结构化的,由组织通过各种传统系统或者遗产系统收集并存储在商业关系数据库管理系统(Relational Database Management System,RDBMS)。作为早期决策支持系统创新迭代整合的结果,BI&A一般包括在线分析处理(Online Analytical Processing,OLAP)、数据库挖掘(Database Mining)、数据挖掘(Data Mining)、执行信息系统(Executive Information System,EIS)、知识管理系统(Knowledge Management System)、地理信息系统(Geographic Information System)、客户关系管理营销(Customer Relationship Management Marketing,CRMM)、可视化(Visualization)(Negash & Gray,2008)。Chen等(2012)则从13项BI平台的必备功能中提取了八项作为BI&A 1.0,即报告、仪表板、特殊查询、搜索型BI、OLAP、交互式可视化、记分卡、预测建模和数据挖掘。其中知识/数据库管理、数据挖掘、实时BI等领域仍然被作为BI&A的固有部分,在BI&A 2.0中继续得以发展。

BI&A 2.0则是强调在传统RDBMS的基础上,对基于互联网的非结构化的网络内容和文本进行进一步挖掘和分析,典型的包括文本挖掘(Text Analytics)(Chaudhuri,Dayal & Narasayya,2011)、社交媒体分析(He,Tian,Chen & Chong,2016)。通过利用cookie和服务器日志,网站平台和企业平台能够完全地搜集并分析用户的足迹和需求,并以此开发新的商业机会。而在移动设备网络与物联网(Internet of Things,IoT)兴起后,对基于移动设备的地理位置信息、通信信息以及隐私等数据的获取与分析进一步促成了以人机交互、移动交互等BI&A 3.0的诞生(Airinei & Homocianu,2010)。

商业情报可以利用数据挖掘从大量数据中发现潜在的有用的、隐藏的和有效的模式。借助商业情报,决策者可以更精确地预测一个商业策略的风险。此时,决策结果是基于大数据的,而不是基于一个人的本能或者个体有限的情报能力。自商业情报的概念诞生以来,大多数组织使用这种技术来预测历史数据的结果或找到新的解决方案,以驱动业务或者变革商业模式。然而随着数据内容的差异化与去结构化,基于明确内容加工框架的商业情报系统已经难以灵活地推广到目前的大数据环境下,这一商业情报系统内生的缺陷呼吁更灵活的、基于程序框架的人工智能的参与。以机器学习技术为主的人工智能正在以更快的速度发展。与商业情报相比,机器学习过程更准确,更少出错,更有能力自己做决定并解决问题。商业情报能够定义特定业务的问题,而机器学习技术能够对决策者的行为进行预测分析。

三 算法升级与人工智能分析

利用人工智能或者机器学习进行分析是大数据分析的另一个研究导向。这一导向关注利用大数据训练机器实现对人类问题解决和决策能力的模仿和部分替代,以减轻人类认知负担,增加决策精确性。机器学习最初的定义是“不需要明确编程就能让计算机获得学习能力”。机器或者系统能够根据输入给出最优的输出。目前更具操作性的定义则认为机器学习是引入新的算法以使计算机能够利用数据进行训练并预测结果。在机器学习之前,计算机必须依赖于编程人员和决策指令的参与;而机器学习发明后,计算机可以自己思考并优化决策过程。组织注意到使用机器学习技术解决问题的新机会。人工智能是机器学习的最终目的。利用机器学习,机器最终能够学习人类决策特征,并达到甚至超过人类智能水平以及解决问题的能力。

机器学习的工作程序很简单,研究者首先在算法和模型帮助下为机器学习系统提供数据,一旦系统熟悉了数据,它就会根据已知的数据集生成目标预测结果。这一工具目前已被应用于管理学等社会科学研究中。例如,Luan、Reb和Gigerenzer(2019)就利用机器学习系统,利用计算机模拟个体决策,探究了启发式和经济理性两类决策逻辑在不同生态环境和知识水平下的决策绩效。

机器学习包括三个水平,即监督学习、无监督学习和强化学习。监督学习指根据以前的数据集知识预测新数据的输出。在这里,研究者输入数据,并期待机器输出结果。早期的机器学习强调对正确案例的模仿和逼近,因而适用规则明确的任务,例如取代基于历史数据的过滤算法并向客户提供更具个性化的推荐(Brynjolfsson & Mcafee,2017),或者对欠结构化的复杂数据进行挖掘并获取有意义的信息(Bose & Mahapatra,2001)。

而无监督学习指通过输入数据,让机器尝试检测模式、对算法进行聚类或者降维并总结数据点,以便分析人员获取有意义的洞见并得出结果。自然数据往往是没有标签的,因而针对无标签数据的无监督学习具有更大的适用场景以及普适性。例如,Azqueta-Gavaldón(2017)建议利用无监督学习和新闻数据建立一个反映经济政策不确定性的指数。当研究者不存在明确的问题或者目的,不知道该从数据中得到什么时,应用无监督学习能够为分析者提供更为异质性的知识。

强化学习则指机器关注环境中的交互,并通过合并交互模型来预测结果。强化学习强调对数据背景的敏感以及快速调整以适应环境并优化决策或者行为流程,这一点类似生态理性和启发式决策(Todd & Gigerenzer,2007)。生态理性决策强调在环境和认知的双重不确定性下,个体应当采用简化的判断方式,通过对环境进行判断并选择合适的决策工具(Kozyreva & Hertwig,2019)。例如,当环境数据分布呈“J”形时,决策者应当以“三角启发式”作为优选项,根据权重最高的因子进行判断而忽略其他因素(Luan et al.,2019)。因此,强化学习在信息有限及高不确定的环境下具有较高的使用价值。

值得注意的是,人工智能分析作为纯粹的技术,其价值实现往往依赖与具体情境的结合。例如,自然语言处理(Natural Language Processing,NLP)已经被纳入商业情报分析中,作为文本分析、语言录音分析的重要技术手段(Maynard,Saggion,Yankova,Bontcheva & Peters,2007)。此外,大量信息同样以视觉表征和图像的形式被储存在大数据仓库中,因此图像识别作为另一项重要的人工智能分析技术,对商业情报系统同样有重要的支持作用(Kimble & Milolidakis,2015)。通过将人工智能算法与商业情报系统结合,大数据分析系统可以有效提高运行效率、运行结果以及价值创造(Canhoto & Clear,2020;Francia,Golfarelli & Rizzi,2020),这一整合后的系统可以被称为商业智能(情报)系统。