数字化时代中国企业国际化战略研究
上QQ阅读APP看书,第一时间看更新

第三节 作为数据集合的大数据研究

Weaver(1991)将科学探讨的问题分为三类:关注有限变量关系的简单问题,关注大量独立变量的无组织复杂性问题,以及关注大量存在内部交互影响关系的有组织复杂性问题。自工业革命以来,先进技术推动的社会发展以及人类观察范围的扩张大大增加了数据以及数据可及性;大量数据以信息的形式汇聚,并为组织管理理论的发展和社会经济的进步提供了新的可能(Beath et al.,2012)。大量数据既是进一步进行数据分析、知识管理、决策支持以及社会应用的基础,也因其自身的大尺度、大规模的数据集合特征而超越了传统的简单系统和无组织复杂系统假设(Jin et al.,2015),并要求研究理念创新以同时处理大量变量之间的交互以及其构成群体行为之间的有组织复杂关系。

一 大数据源起

科学技术的发展促进了人类对客观世界的观察方式的改变。新出现的观察方式模仿并拓展了人类感知客观世界的能力,并将对客观世界的观察以大量主题数据集的方式记录储存,构成早期的大数据集合(Cox & Ellsworth,1997)。例如,以互联网为核心的信息通信技术使虚拟数字世界的存在成为可能,而作为互联网生态提供者的平台组织及提供互联网服务的参与组织能够从用户行为中积累大量数据并以数据库的形式存储(Bourne et al.,2015)。早期的大数据研究主要关注大数据作为数据库或者数据集合的语义意义,关注大数据集合的本体特征如多V模型:规模(Volume)是大数据区分于传统数据的直接特征。然而过度关注数据规模会导致忽略了大数据的其他特征(Jagadish,2015),之后多个组织注意到了过度关注规模的弊端,因而在大数据规模的基础上新增了差异和速度两个维度,这一点被广泛接受并应用于实践研究中(Laney,2001;Mooney et al.,2015)。例如,Johnson等(2017)的研究指出,组织的探索性导向能够促进大数据的规模、速度和差异的发展,并进一步提高新产品收益。在此基础上,之后的研究者不断探索大数据的其他特征,并归纳出大数据的精度、变化、可视、价值等总计11个维度(Venkatraman & Venkatraman,2019),如表1-1所示。

表1-1 大数据多Vs模型

此外,基于不同侧重,大量学者同时提出了大数据的5R模型(Wu et al.,2015)、4C模型(刘业政等,2020)、HACE原理(Wu,Zhu,Wu & Ding,2013)等,然而这些基于经验观察的描述缺乏对隐藏在大数据这一单一概念之下的复杂系统的思考;随着数据规模和计算需求的增加,系统复杂性也在幂律增加,因此大数据并非是传统数据的加总,而是涉及多主体互动动态过程的有组织的复杂系统(Marz & Warren,2015)。复杂系统理论的引入对揭示大数据集合的属性提供了科学的理论依据和研究基础。

二 大数据集合的性质

复杂系统是指由大量可能相互作用的组元所组成的系统(Arthur,2018),主要涉及对系统以及系统组元行为和性质的研究。大数据复杂系统性质研究的一个核心观点是,由于传统的数学和概念性方法仅仅适用于微观和宏观行为分离的系统中,而复杂系统各组元之间的交互会导致跨尺度的行为而违背了这种尺度分离假设,因而传统方法不能充分表示系统内组元相互关系的影响(Bar-Yam,2016),因此必须引入动态、跨尺度与非线性变化三个复杂系统性质的基本维度对其加以阐述,这一三维划分也得到了贾建民等(2020)大数据“时空关”的支持。大数据系统的时间维度允许记录目标对象的动态行为,空间维度允许探究不同层次间的跨尺度行为,关系维度则允许勾勒系统组元间非线性的关系。

动态指对系统如何随时间改变的研究,这一属性使大数据集合能够对真实世界固有的动态性和复杂性进行映射及进一步分析。例如,在大数据早期的3Vs模型中,数据输入的速度是大数据最核心的三个特征之一(Laney,2001),之后的研究同样发现大数据系统对实时性具有极高的要求,其数据集合的结构和变量规模会随时间动态改变(Buyya,Calheiros & Dastjerdi,2016;Erevelles,Fukawa & Swayne,2016)。

非线性则指大系统数据中的数据不满足叠加性和/或齐次性,这一属性更多地挑战了传统数据分析工具的适用范围。与受限于数据收集方式的传统研究方式不同,较大的数据集合允许更为灵活的非线性关系,而获取潜在非线性关系的能力则需要对应技术的支持(Varian,2014)。为应对非线性的表征,大数据系统结合深度学习、决策树、支持向量机等机器学习算法,从原始数据中提取复杂的非线性特征(Najafabadi et al.,2015),并允许简单的线性模型将提取的特征作为输入进行进一步加工。

尺度一般指观察者所关注的事物或现象所处的范围。大尺度系统往往覆盖了较大的时间和空间范围,而小尺度事件则蕴含丰富的信息细节。解决大数据复杂系统的问题要求厘清其中错综复杂的跨尺度的依存关系和行为的多重因果联系。除了传统关注同一尺度下行为的相互关系,大数据应用者更应该关注系统内部微观尺度的依存关系如何引致大尺度的行为模式;通过舍弃不必要的细节,直接刻画宏观尺度上系统的动态非线性行为模式(Bar-Yam,2016)。而在另一方面,作为大规模数据的特征,大数据集合对微观尺度复杂细节同样存在精确而全面的刻画,因而也能改进传统研究方法对孤立系统内部各要素依存关系的研究精确性。对这种同时存在上探和下探的趋势,反映了大数据尺度和细节的精细化,也就是说信息细粒度(Pedrycz & Chen,2014)。

获取驱动宏观尺度涌现行为的解释机制并探索影响结果的关键信息是大数据系统的核心目标,这一过程可以被视为对问题空间求解。问题空间是问题解决者对一个问题所达到的全部认识状态,它是由问题解决者利用问题所包含的信息和已储存的信息主动地构成的(Kotovsky & Simon,1990)。问题解决可以被认为是对问题初始状态与目标状态之间算子集的搜索(Newell & Simon,1972)。在完美信息的情况下,我们可以假定这个数据集合不存在偏差。研究者认为:如果通过一个数据集合,研究者能够精确地确定某一确定系统位于其他参数水平下的状态,则我们可以认为该数据集合是完整的。

复杂系统内部既不是完全独立也不是完全相关,因而在对复杂系统的研究中,研究者首先关注的是那些具有跨尺度影响的信息。这意味着这些信息在多个尺度的系统层面都将被频繁访问和调用,并在从微观到宏观的跨尺度运行上发挥了重要的解释功能,研究者将其称为工作数据。与之相对,提供了各个尺度上系统细节的信息仅在考虑某一特定尺度时被纳入考虑,而在考虑其他尺度系统时因明显的尺度分离现象而能以大数据和传统途径探索,研究者将此类数据称为可用数据。此外,大数据系统的边界同样是另一个值得关注的问题。大数据系统边界定义了尺度内以及跨尺度的系统与环境的分界,给定了系统规则适用的范围与极限。因此,与理论边界类似,系统边界可以认为是由研究者所处的时代背景、环境背景、研究者价值观构成的研究假设塑造的(Bacharach,1989),对边界条件的探索拓展了系统和理论的适用范围和边界条件(Busse,Kach & Wagner,2017)。对于此类在大数据系统中基于开发者假设而被暂时假设排除于系统外的数据,研究者将其称为缄默数据。最后,对于真正位于已知数据集合外部的数据,研究者将其称为未知数据。

四类数据对大数据复杂系统具有不同的影响。由于未知数据的完全不确定性,它的存在会增加系统模型整体的不确定性,进而影响仿真和预测的结果。建模数据则能够通过假设,在一定程度上控制系统模型的输出结果。虽然这会降低系统模型的准确性,但同时也减少了不确定。从同一尺度的可用数据中或许能够发现影响观察数据的新路径,但从不同尺度的可用数据中却能发现跨尺度影响的工作数据集合,这取决于系统和数据分析的焦点。换言之,大数据系统不仅允许决策者利用工作数据获得从宏观到微观的数据整体性的跨尺度洞察,同样允许决策者得以聚焦局部数据并探索相近尺度数据集合的详细结构。这一跨尺度的研究方式已被广泛地用于医学研究等多个领域(Stokes et al.,2020)。

三 大数据集合的数据结构

行为是复杂系统理论关注的另一个焦点,它构成了大数据系统重要的数据来源,也是社会经济和组织管理的重要依据(Becker,2013)。尽管推动行为数据的原因有很多,行为主体属性对数据下一步的分析和应用具有先验的技术和伦理影响。例如,来自社交媒体上公开的个人信息与购物订单中的购物信息具有不同的商业分析价值和隐私属性,因而要求在进一步分析时采用相对应的方法。

大数据的记录依托于行为主体在大数据系统平台中留下的数字行为足迹。从社会经济的角度,Li等(2019)指出,在一个典型的跨国数字平台生态中,平台企业、用户和为用户提供服务的产品或服务提供商共同构成了数字生态。平台由共享的技术、组件、服务、体系结构和关系构成,这些技术、组件、体系结构和关系是各种参与者聚合和创造价值的共同基础(Gawer & Cusumano,2014)。典型的数字平台指拥有模块化架构的以互联网为基础的平台,例如社交平台、电商平台、传感器中控平台等,其通过提供交互界面以促进代表需求的用户和代表供给的产品或服务供应组织之间的多边交易和交流并创造价值(Li et al.,2019)。在平台的基础上,用户以及供应组织相互协作以实现共同的价值主张的多边体系进一步构成了数字生态(Adner,2017;Jacobides,Cennamo & Gawer,2018)。Weill和Woerner(2015)则进一步指出,作为平台的商业组织受政府监督,能够完全掌握终端用户相关的知识,而作为生态参与者的“模块”企业则仅能掌握部分用户知识。据此,研究者将参与并记录提供数字足迹的大数据来源分为以下四类:①用户;②供应商;③平台组织;④公共管理组织。

大数据系统组元的交互行为定义了系统的动力过程。根据用户行为,Blazquez和Domenech(2018)将数据来源划分为信息搜索、信息交易、信息扩散、社会交换和非故意传播五类。对用户而言,数据首先来自用户之间的社会交流或者信息搜索,此时用户希望与其他用户共享信息、意见和想法(Loebbecke & Picot,2015)。其次,用户能够通过授权、协议或者购买等经济或者非经济行为换取供应商的产品或服务,并形成对应数据。供应商之间同样能够将数据作为一种新型货币,通过信息交易以扩大数据价值(Sadiku,Foreman & Musa,2018),或者利用数据平台进行市场教育、数字营销等信息扩散活动(Akter & Wamba,2016)。

尽管组织管理理论一直强调市场知识与客户知识获取对产品创新和组织绩效的影响(Li & Calantone,1998;Malhotra,Gosain & Sawy,2005;Zhou & Li,2012),传统基于分工和要素等资源配置的供给侧优化模式仍然在产品设计和企业运营过程中丢失了大量来自需求侧的信息(Srnicek,2017)。基于处理日益增长的数据的需求,平台作为一种新的商业模式和组织形式得以出现。对平台组织而言,非故意泄露的生态数据同样为平台管理和用户分析提供了大量数据。在部分生态活动中,数据并非来自用户或者供应商的主动生成或授权采集,而是来自第三方的观察以及信息泄露,例如用户留在电商平台数据库中的搜索记录、位置信息或者私人信息等(Blazquez & Domenech,2018)。此时,数据是无意识中被动生成并且往往未经授权。此外,出于公共管理的目的,大量平台数据、用户数据、交易信息,以及具有公共属性的农业、卫生、交通等信息会进一步汇聚到政府平台以供公共决策(Bertot,Gorham,Jaeger,Sarin & Choi,2014)。更进一步地,出于国家安全等战略考虑,政府所掌握的大数据甚至需要来自全球,这进一步形成了国家之间的数据交易(Kim,Trimi & Chung,2014)。

大数据集合作为一个多尺度的复杂系统,得以观察描述多尺度下的系统动态变化。囿于方法限制,传统概念研究难以处理跨尺度的因果问题,因而在处理大数据时具有内生的局限性。复杂系统理论对细节数据的重整化群既保留了对同一尺度上各组元关系的探索能力,又提供了跨尺度上刻画了系统内部依存关系对系统动态影响的视图。随着尺度的增加,表示系统所必需的信息量随之减少,因而描述系统动态的重要组元会以留存的方式自然地凸显。虽然大数据复杂系统拥有揭示跨尺度关系的潜质,然而如何将系统的小差异重整并比较更大差异之间的关系,并实现对大尺度洞见的呈现,以及对这些洞见的社会应用,则依赖于大数据技术和应用者的进一步参与。