1.3 基础——数据的进化
在我们的生活中,每时每刻都在产生数据。例如,走路时,数据可以记录我们走过的距离;乘公交、地铁出行时,数据可以记录我们的行动轨迹;吃饭点餐时,数据可以记录我们的口味偏好。大家无时无刻不在贡献着自己的数据,这些数据通过手机应用、交通视频终端、检测器等被跟踪、采集。采集到的数据一般无法直接应用,还需要对其进行一定的处理才能将其用于数据分析或人工智能模型构建。
数据就像空气一样无时无刻不在我们身边,只要存在社会活动就会产生大量的数据。数据的定义非常宽泛,它早已不是常规意义上的“数字”,在业务过程中所有产生的或被记录下来的痕迹都可以称为数据,不仅包括传统意义上的数字,还包括文字、图像、声音、视频等。不过计算机只能识别数字,其他形式的数据须转换成数字才能被计算机识别、处理。当前主要有以下几种数据形式。
(1)数字。数字是最传统的数据形式,如消费数据、报表数据及各种机器的参数等都是以数字的形式记录的。无论何种形式的数据,最终都要转换为数字形式才能够被计算机识别、处理。
(2)文字。文字是重要的数据形式,其中蕴含着大量信息,如用户对商品的评论信息、新闻报道中的信息等都是以文字形式展现的。文本挖掘可以从文本中抽取新颖、有价值的知识,并且将这些知识组织成有用的信息。
(3)图像。图像数据利用成像的方式记录场景与状态。随着GPU的发展,图像数据处理成为当前热门的人工智能研究领域。通过对图像数据的处理,人们可以对图片进行特定分类与检测,在交通、医疗、安全等领域具有重大意义。
(4)声音。声音数据同样是重要的数据信息。例如,在语音识别、同声传译等领域都是对声音数据进行处理。声音数据处理需要通过编解码技术将声音转化为数字后提取相应特征。
(5)视频。视频数据可以认为是按时间序列排布的图像数据集合。当前对视频数据的分析,大多是先将视频转化为多组图像,再对图像数据进行分析,进而对视频进行分析。
数据的形式有很多,不同形式的数据有着不同的处理方法。数据之所以能够成为人工智能发展的基础,是因为数据中蕴含着人类已知与未知的经验与规律,这些经验与规律正是人工智能发展的源泉。数据未来的发展表现为数据量的增大,更表现为数据价值的体现。数据正在成为企业的一种资产,甚至一类战略资源。未来需要对数据进行融合交叉,将不同维度的数据进行组合,以创造更大的价值。
1. 数据的内涵
数据是人类活动留下的记号,这些记号必然蕴含着人类活动的经验与规律。
1)数据是人类经验的载体
在人工智能领域有一句调侃的话“人工智能有多智能,背后就有多少人工”。人工智能模型是通过数据训练而得到的,机器只有通过学习数据中蕴含的人类经验才能获得智能,所以数据是人类经验的载体。
工程师能够根据仪器产生的数据判断仪器是否有故障,医生可以根据医学检验数据判断患者是否存在某些疾病,人能够区分鸟与乌龟的照片等,这些都是人的经验。这些仪器产生的数据、医学检验数据、鸟与乌龟的图片等在没有人类依据经验对其进行解读时,只是一些数字或图片,称为原始数据。人类经验为这些数据赋予了相应的意义,人们可以标识出哪种数据代表仪器出现故障,哪类医学检验数据代表患者患有糖尿病,哪一张是鸟的照片、哪一张是乌龟的照片,这个过程称为数据标注。数据标注是确定原始数据与数据意义对应关系的过程,也是人类经验的集中体现。
在对数据进行训练以得出人工智能模型的过程中,需要使用已经完成标注的数据,这样才能确保人工智能模型能够准确学习到数据中蕴含的人类经验。
2)数据中蕴含着事物规律
在社会活动中,很多规律与知识不会轻易被人们发现,而是会隐藏在这些活动产生的数据之中。著名的尿布与啤酒的故事,就是数据体现事物规律的一个案例。进行数据挖掘就是为了探索数据中蕴含的客观规律,这些规律可以丰富人们对事物的认识,指导人们未来的工作。
2. 数据的发展
未来数据发展的重点在于如何突出数据的价值。因为人们追求的是数据的价值,所以不但要发展与数据科学相关的新技术,还要将这种价值应用到业务场景之中并形成商业模式,只有具备良好的商业模式,才能保证数据价值的稳定输出。
数据的发展也带来了思维模式的转变:从之前的被动产生数据,转变为当前的主动利用数据;从之前的人脑产生知识,转变为从数据中提取知识。这种数据思维模式的转变,对未来数据科学乃至人工智能技术的发展具有深远影响。
1)数据资产
数据不仅是一项资源,还是一种资产。数据资产是指由企业过去的交易或业务所形成的、由企业拥有或控制的、预期会给企业带来经济利益的数据资源。数据资产的三要素为企业所有、价值可度量和存在商业价值,如图1-11所示。数据资产是企业财富的另一种表现形式,学会创造数据资产是未来企业获取利益的重要手段。
图1-11 数据资产的三要素
将数据转化为资产是数据发展的必然趋势。数据成为资产代表着数据价值被认可,代表着数据商业的成型,代表着数据价值可以用货币对价的方式进行描述。数据资产可以提升企业的竞争力,同时有利于企业更快、更好地融入业务场景。不同数据资产的相互组合,可以为企业拓展商机、构建新的商业模式。
将数据转化为资产并不是一件容易的事。当前社会生活产生的数据繁多,但多数是比较混乱的非结构化数据,真正能够用来进行数据分析的结构化数据相对有限。将数据转化为资产首先需要经过数据治理的过程,需要从数据存储、数据结构、数据关系等方面提升数据价值。
2)数据思维
在传统的认知中,有一句话叫“知识就是力量”,知识是人通过长期实践总结出来的规律,可用来指导人们未来的行为。在数据时代,数据也是一种力量。对数据进行良好的组织、挖掘、建模的能力成为数据时代的核心竞争力。数据中蕴含着知识,但是数据中的知识并不一定需要提取出来才能够利用,这就是数据思维。当前神经网络的大规模应用,使人们可以直接通过数据训练解决问题。在数据的训练过程中,忽略知识提取这个过程,人们解决问题的思维模式便可由“知识范式”过渡到“数据范式”,如图1-12所示。
图1-12 思维模式“知识范式”向“数据范式”过渡
知识范式是指人们通过知识解决问题的模式与方法;数据范式是指不提取数据中的知识,直接通过数据解决问题的模式与方法。人们应用数据思维解决问题,可以通过数据弥补知识方面的缺失,但并不意味着要完全放弃通过知识解决问题的方法。未来需要使“知识范式”与“数据范式”两种思维模式相互协调,针对不同问题采用不同的解决策略。