1.3 数据素养
1.3.1 何为数据素养
人们在生活、学习和工作中,经常被各种类型的数据包围,这点在人工智能时代背景下尤为突出。但是,这些数据背后的真正含义是什么?人们是怎样设计指标并获取这些数据的?数据真的能够帮助人们洞察事物本质并解决问题吗?人们应该如何解读得出的数据结果?这是许多教师、学生和科研人员经常询问的问题。
其实,不仅是在学界,企业也是如此。笔者在为企业进行数字化转型培训时发现,很多企业在分析与处理数据时,常常出现以下情况。
● 事前一筹莫展,场景转化能力差,不知从何处入手。
● 事中得心应手,数据处理能力强,操作十分娴熟。
● 事后百思不得其解,数据解读能力弱,不知该如何拓展。
这些情况共同反映出一个问题,那就是数据素养(Data Literacy)还有待提升。那么,何为数据素养呢?
一些学者将数据素养定义为阅读、理解、创建和将数据作为信息进行通信的能力。与读写能力一样,数据读写能力也是一个通用概念,它关注的是与数据打交道所需具备的能力。然而,与文本阅读能力不同,数据读写能力还要求掌握阅读和理解数据等技能。也有学者认为,数据素养是指正确理解数据的含义、恰当阅读图表、从数据中得出正确结论,以及识别是否被误导或不恰当地使用了数据的能力。
除了数据素养,还有一些学者提出了数据信息素养(Data Information Literacy)这一概念。他们认为,数据信息素养建立在数据、统计、信息和科学数据素养的基础上,并且将其重新整合为一套新兴技能。其中,统计素养被认为与数据素养最为贴近。统计素养被定义为阅读和解释日常媒体的统计摘要所需具备的能力。
另有一些学者在数据、统计和信息素养方面找到了共同点,他们指出,具有信息素养的学生必须能够批判性地思考概念、主张和论点,并且可以阅读、解释和评估信息。掌握统计知识的学生必须能够批判地思考基本的描述性统计,并且能够分析、解释和评估统计。具有数据素养的学生必须能够访问、操作、总结和呈现数据。基于上述条件,米洛·席尔德(Milo Schield)划分了批判性思维技能的层次:数据素养是统计素养的必要条件,而统计素养也是信息素养的必要条件。
一些研究在讨论数据素养的定义时,主要通过以下6个维度展开。
(1)意识:能够对数据进行有效关注。
(2)思维:一种利用数据思考问题的方式。
(3)技能:整理、分析、使用数据并使数据可视化。
(4)洞察:从数据中找寻决策的依据。
(5)伦理:遵守数据伦理,能够批判性地看待数据。
(6)综合:具备上述维度的2项或多项。
曹树金等学者认为,数据素养在国内至今仍然没有形成一个公认的准确定义,国外对此也是众说纷纭。笔者认为,数据素养应该是综合的、全面的,不但涵盖从真实世界的数据构建开始到决策并重新迭代的全链条,还包括数据的法律、道德伦理及合理利用等其他重要因素。
因此,数据素养既与信息素养和统计素养有着紧密的联系,又与它们在很大程度上有所不同。结合前人的研究成果,笔者在本书中将数据素养定义为:数据素养是指具备一定的数据思维、数据意识与数据知识,能够敏锐地从场景中构建、获取、处理并分析数据,最终将结果辩证地作为支持决策的信息的一种能力素养。
根据以上定义,可将数据素养划分为以下维度,如表1-1所示。
表1-1 数据素养维度
在数据意识这一维度上,数据表达意识是指能够主动利用数据描述问题,表达自己的见解;数据敏锐意识是指对外部环境所涉及的数据的洞察能力及响应速度;数据安全意识是指能够有效保护自己的数据隐私;数据法律与伦理道德意识是指在符合法律及道德伦理的情况下获取并使用数据;数据开源共享意识是指在合法合规的情况下,与他人分享自己的数据成果,共建良好数据生态。
在数据思维这一维度上,数据场景构建思维是指能够将场景转化成以某种数据形式进行描述的思维;数据指标创新思维是指能够在原有指标基础上进行创新,构造出更加合理的、能够支持决策的指标的思维;数据量化测度思维是指能够充分挖掘事物背后的关键信息,以定量的方式呈现问题的特征,并且能够对这种特征进行测度的思维。
在数据知识技能这一维度上,数据的理论知识是指如统计学、大数据、微积分、线性代数及概率等相关理论知识;数据的处理能力则是指在获取、处理、分析并以可视化形式呈现数据时,对所涉及的应用工具的掌握情况,如Excel、SPSS、R、MATLAB、Hadoop、Python,甚至网络爬虫工具等。
在数据评估与决策这一维度上,利用数据进行评估是指对处理的数据进行多维有效的评估,对数据的获取、处理等各环节进行复盘,评价分析结果;利用数据进行决策是指通过数据做出科学推断及合理解释,使决策更加优化、合理。
总之,此次人工智能再度兴起的重要原因之一就是大数据的发展。随着人工智能技术的不断深入,数据将扮演越来越重要的角色,如在此次抗击新冠肺炎疫情的过程中,大数据就发挥了巨大的作用。在科技不断进步的背景下,数据素养不应仅聚焦在研究层面或仅停留在少数领域中,而是应该推广普及给更多人群,实现全民数据素养提升。
1.3.2 数据素养为何重要
随着人工智能时代的来临,以及大数据等科技力量的不断发展,数据已成为工作、学习和生活的密不可分的组成部分。企业利用数据进行数字化转型,学校通过大数据评估教学,人们的衣食住行无一不与数据挂钩。
如果你是一位决策者,现有2位员工向你汇报工作。
● 员工1:二季度公司营业收入不少,环比增长较多……
● 员工2:二季度公司实现营业收入33.17亿元,环比增长40.05%……
你认为哪位员工更称职呢?显然,善于利用数据表达的那位员工会让你的印象更深刻。
笔者在《前景理论与决策那些事儿——一本正经的非理性》中曾给出过如下的案例。
日本东京都市的5个核心区,某年的人均收入分别为1023万日元、848万日元、736万日元、501万日元和408万日元,从以上的数据来看,最高年收区群体的平均值为935.5万日元,而非高年收区群体的平均值为548.3万日元[3]。受经济增长乏力,人口老龄化、少子化及地产业下滑等因素的影响,两年后,上述5个核心区的人均收入均减少了8%,即分别为941.2万日元、780.2万日元、677.1万日元、460.9万日元和375.4万日元。此时,最高年收区群体中的个体数从2个变为1个;而非高年收区的个体数从3个变为4个。最高年收区的平均值为941.2万日元,而非高年收区的平均值此时为573.4万日元[4]。
看完这段含有数据的信息后,对数据敏感的人可能会发现一个问题,即所有个体数值下降,但是两类群体的平均值均有上升。这就是有名的辛普森悖论(Simpson's Paradox),它经常出现在医学等社会科学的学科当中。对数据不敏感的人则可能不会关注到这一反常现象,更不用说思考现象背后的原理。
有一句流传在程序员之间的俏皮话,“爬虫学得好,监狱进得早”,描述的就是在数据获取过程中存在的法律、伦理道德问题。随着图像、视频及文本等数据上传越发便利,数据安全的问题也变得更加严峻。一方面,我们要保护好自己的隐私数据不被他人利用,不轻易将密码告诉他人。但人们的自我保护意识依然不够强烈,这使得人脸信息等面部隐私数据依然会被不法分子利用。另一方面,有一些学生,甚至是中学生,因为盗取用户信息受到了法律的严惩。这些都是缺乏数据素养的表现。
笔者在给一些企业管理人员做培训时,会经常强调创建指标的重要性。一些人认为,很多场景其实很复杂,没法用量化的指标衡量。其实不然,在很多情况下,一些复杂的问题可以转化为可衡量的其他问题。
人工智能领域的图灵测试就是符合上述要求的一个案例。1950年,人工智能之父、英国数学家艾伦·图灵(Alan M. Turing)发表了一篇关于计算机器与智能的文章,文章的第一句就提出“机器会思考吗”(Can machines think?),并且通过模仿游戏(Imitation Game)验证机器能否思考,形成了后来被奉为经典的图灵测试(Turing Test)。
图灵测试的目的就是对机器是否具有智能进行衡量,即如果人们无从得知机器是否能够进行思考,那么是否可以通过将其与另一个结果挂钩来衡量其是否智能呢?通过图灵测试,对智能的测量从原本的问题成功转变成另一个问题。这里需要说明的是,智能到现在都没有形成公认的定义。
再举一个例子。众所周知,在投资中存在收益和风险,收益率作为衡量收益的指标无可厚非,而如何衡量风险却一直争论不断。诺贝尔经济学奖得主哈里·马科维茨(Harry M. Markowitz)利用围绕收益的波动来定义风险,提出了均值-方差模型,被誉为现代投资组合理论之父。方差衡量风险的思想是,既然风险非常复杂,很难说清,那么就干脆使用一种围绕收益率的波动来表示,这就是统计中的方差。利用方差这个指标,他成功实现了对投资风险的量化。
1.3.3 如何提升数据素养
未来,越来越多的场景都会与数据深度融合,这就对人们的数据素养提出了更高的要求。那么,如何提升自身的数据素养呢?
首先,在数据意识层面,要尽可能地尝试使用数据进行表达。这就需要人们多留意身边的数字,不要再说楼层很高,而是要说楼高××米(或××层)。通过多看、多听财经等类新闻,获取最新数据信息,记录关键数字,刻意训练自己对数据的敏锐度。面对一些公开数据,要学会多思考、多质疑。例如,在前面提到的辛普森悖论案例中,许多人仅停留在了对数据的获取上,只有少数人发现了其中的悖论,极少数人解释了这个悖论。对已有的数据要具备充分的隐私保护意识,在防止自己的数据被人利用的同时,也要警惕自身的行为是否侵犯了他人的隐私。
其次,在生活、工作和学习中需要多观察、多思考,想象如何将一些场景以量化的形式构建出来,并且合理设计一些指标来构建这些场景。同时,还需要对指标进行科学合理的测度,因为如果无法对指标进行测度,形成数据,也就无法进一步分析。例如,前面提到的波动是一个指标,但是如何进一步量化呢?这就需要利用统计学中的方差。大家熟知的六西格玛管理也是一种对场景的量化转换。
另外,掌握数据知识和技能必不可少。现在的场景与场景之间联系非常紧密,即便是文科专业的学生,多学习一些数学、统计知识也会有所裨益。例如,2019年,中央音乐学院官网发布消息,首次招收“音乐人工智能与音乐信息科技”方向的博士生。人工智能在很大程度上离不开对数据的处理、分析,而对数据进行处理、分析的程度又离不开对工具的使用,如对前面提到的Excel、SPSS、R、MATLAB、Hadoop、Python,甚至网络爬虫工具等。熟练掌握这些工具会大大提升处理、分析及解决数据问题的能力。
最后,对已有的数据结果进行合理评估,如多思考数据背后的含义、当时的指标构建是否合理、在指标设计上是否存在疏漏或不合理之处,以及是否存在数据被“操控”的现象,使结论和真实之间相差甚远。在做决策时,需要结合量化的数据分析,避免主观臆断,使决策从多维度进行考量,从而更加合理。