1.1 大数据与数学
最早提出大数据概念的是全球知名咨询公司麦肯锡。该公司称:“数据已经渗透到当今每一个行业和业务职能领域,成了重要的生产因素。”人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。实则,大数据在物理学、生物学、环境生态学等学科领域,以及军事、金融、通信等行业已有些时日,只是由于近年来互联网和信息行业采用了大数据技术,使得这一名词的曝光度提高,进而变得火热起来。本节通过介绍大数据的定义与数学各分支在大数据中的作用,阐述大数据与数学的关系。
1.1.1 大数据的定义
多数人认为“大数据”是一个新兴词汇,实则不然,早在1980年,著名的未来学家阿尔文·托夫勒便在《第三次浪潮》一书中将大数据赞颂为“第三次浪潮的华彩乐章”。大数据一词大约是从2009年开始被引入公众视线的。
1. 大数据的特征
虽然“大数据”这一个词汇已经诞生了近40年,但是目前为止并没有一个明确的定义。维克托·迈尔·舍恩伯格在《大数据时代》一书中提到了大数据应该具备以下3种特征。
(1)不是随机样本,而是全体数据。过去,因为记录、存储和分析数据的工具不够好,为了让分析变得简单,人们只能收集或者抽取尽量少的数据进行分析。如今,技术条件已经有了非常大的提高,虽然人类可以处理的数据依然是有限的,也永远是有限的,但是处理的数据量已经大大增加,而且未来会越来越多。在条件允许的情况下,使用全体数据往往能够得到一个更加准确、更接近真实的结果。
(2)不是精确性,而是混杂性。执迷于精确性是信息缺乏时代和模拟时代的产物。大约只有5%的数据是结构化且能适用于传统数据库的,如果不接受混乱,剩下95%的非结构化数据就无法被利用。所以只有接受不精确性,才能从数据中获取更大的价值。需要特别注意的是,不精确性并非大数据固有的,它只是用来测量、记录和交流数据的一个缺陷。因为拥有更大的数据量所能带来的商业利益远远超过增加一点的精确性,所以通常不会通过大量增加成本提升数据的精确性。
(3)不是因果关系,而是相关关系。因果关系强调原因和结果必须同时具有必然的联系,即二者的关系属于引起和被引起的关系。而相关关系的核心是量化两个数据值之间的数理关系,相关关系强是指当一个数据值增加时,另一个数据值很有可能也会随之增加。
2. 大数据的定义
现阶段,大数据领域比较通用的大数据定义基于图1-1所示的5V,其中每个V的具体定义如下。
图1-1 大数据5V定义示意图
(1)Volume:数据量大,即采集、存储和计算的数据量都非常大。真正大数据的起始计量单位往往是TB(1024GB)、PB(1024TB)。
(2)Velocity:数据增长速度快,处理速度也快,时效性要求高。比如,搜索引擎要求几分钟前的新闻能够被用户查询到,个性化推荐算法尽可能要求实时完成推荐。这是大数据区别于传统数据挖掘的显著特征。
(3)Variety:种类和来源多样化。种类上包括结构化、半结构化和非结构化数据,具体表现为网络日志、音频、视频、图片、地理位置信息等,数据的多类型对数据处理能力提出了更高的要求。数据可以由传感器等自动收集,也可以由人类手工记录。
(4)Value:数据价值密度相对较低。随着互联网及物联网的广泛应用,信息感知无处不在,信息量大,但价值密度较低。如何结合业务逻辑并通过强大的机器算法来挖掘数据的价值,是大数据时代最需要解决的问题。
(5)Veracity:数据的准确性和可信赖度高,即数据的质量高。数据本身如果是虚假的,那么它就失去了存在的意义,因为任何通过虚假数据得出的结论都可能是错误的,甚至是相反的。
1.1.2 数学在大数据领域的作用
信息化时代,大数据在各领域发挥着越来越重要的作用。人们使用大数据技术从海量数据中挖掘信息,发现规律,探索潜在价值。在大数据的研究和应用中,数学是坚实的理论基础。在数据预处理、分析与建模、模型评价与优化等过程中,数学方法扮演着至关重要的角色。
1. 微积分
从17世纪开始,随着社会的进步和生产力的发展,以及航海、天文、矿山建设等许多课题要解决,数学也开始研究变化的量,进入了“变量数学”时代,微积分也由此诞生。通过微积分可以描述运动的事物,描述一种变化的过程。由于微积分是研究变化规律的方法,所以只要是与变化、运动有关的研究,都或多或少地与微积分存在联系,都需要运用微积分的基本思想和方法。可以说,微积分的创立极大地推动了生活的进步。
微积分是整个近代数学的基础,有了微积分,才有了真正意义上的近代数学。统计学中的概率论部分就是建立在微积分的基础之上的。比如,在函数关系的对应下,随机事件先是被简化为集合,继之被简化为实数,随着样本空间被简化为数集,概率相应地由奇函数约化为实函数。因此,微积分中有关函数的种种思想方法都可以畅通无阻地进入概率论领域。随机变量的数字特征、概率密度与分布函数的关系、连续型随机变量的计算等都是微积分现有成果的直接应用。
微积分的基础是极限论,在概率论中运用广泛,如分布函数的性质、大数定律、中心极限定理等。同时,在机器学习中,非常重要的各类最优化算法本质上就是在一定约束条件下求一个函数的最值,而这一概念和微积分基础中的极限论息息相关。
2. 线性代数
线性代数与大数据技术开发的关系很密切,线性代数领域的矩阵、秩、向量、正交矩阵、特征值与特征向量等概念在大数据分析、建模中发挥着巨大的作用。
在大数据中,许多应用场景的分析对象都可以抽象表示为矩阵。比如,大量Web页面及其关系、微博用户及其关系、文本数据中的文本与词汇的关系等都可以用矩阵表示。Web页面及其关系用矩阵表示时,矩阵元素代表了页面a与页面b的关系。这种关系可以是指向关系,比如,1表示a和b之间有超链接,0表示a和b之间没有超链接。著名的PageRank算法就是基于这种矩阵进行页面重要性的量化,并证明其收敛性的。
以矩阵为基础的各种运算,如矩阵分解,是分析对象、特征提取的途径,因为矩阵代表了某种变换或映射,所以分解后得到的矩阵就代表了分析对象在新空间中的一些新特征。其中,特征分解(Eigen Decomposition)和奇异值分解(Singular Value Decomposition)等在大数据分析中应用十分广泛。
3. 统计学
统计学是一门基于数据的科学,是一种研究数据搜集、整理、分析与应用的方式和方法。数据是严谨的、枯燥的、冷冰冰的,同时,正确的数据又是丰富的、客观的、忠实的、从不会欺骗人的。
在当今的信息时代,数据是信息的载体,是统计学分析的对象。统计工作本身就是对数据进行搜集、整理、分析、解释这样一个系统的过程。离开了数据,统计学就失去了研究的意义和价值。同理,离开了统计学,数据就只是单纯的数据而已,几乎没有价值。通过统计的方法和原理整理及分析出来的数据,在精确度和适用度方面才会有较高的提升,才会实现数据的真正价值。
大数据的分析与挖掘等工作,从数据预处理开始,至建模得出结论,无不存在着统计学的身影。比如,统计分析所提供的诸如方差分析、假设检验、相关性分析等方法,都有助于数据分析前期的数据探索、数据预处理、特征工程等操作;朴素贝叶斯、Apriori关联规则等算法本身的理论基础就来源于统计学。拥有扎实的统计基础,能够更加深入地理解算法,并解释结果。此外,在得出分析结果以后,研究者还需要通过统计分析来描述结果,以方便其他人理解。
4. 数值计算
数值计算是求解工程实际问题的重要方法之一,且随着工程问题规模的不断增大,相比于理论研究和实验研究,其实用价值更大。在大数据时代的背景下,数据分析、数据挖掘、机器学习等算法中常见的插值、数值逼近、非线性方程求解等都属于数值计算的范畴。
从更高的层面看,数值计算指有效使用数字计算机求数学问题近似解的方法与过程,几乎涵盖了所有涉及复杂数学运算的计算机程序。数值计算主要研究如何利用计算机更好地解决各种数学问题,包括连续系统离散化和离散型方程的求解,并考虑误差、收敛性和稳定性等问题。
5. 多元统计分析
多元统计分析简称多元分析,是从经典统计学中发展起来的一个分支,是数理统计学中的一个重要的分支学科,是一种综合分析方法。20世纪30年代,R.A.费希尔、H.霍特林、许宝碌及S.N.罗伊等人做了一系列奠基性的工作,使多元分析在理论上得到迅速发展。20世纪50年代中期,随着电子计算机的发展和普及,多元分析在地质、气象、生物、医学、图像处理及经济分析等领域得到了广泛的应用,同时也促进了理论的发展。
多元分析在大数据分析中有非常广泛的应用,能够在多个对象和多个指标互相关联的情况下分析出它们的统计规律。多元分析的主要方法包括回归分析、判别分析、聚类分析、主成分分析(Principal Component Analysis,PCA)、因子分析及典型相关分析等。这些分析方法在大数据领域都有着非常广泛的应用,其中,回归分析中的一元或多元线性回归可用于预测连续型数据,如股票价格预测和违约损失率预测等;判别分析与回归分析中的逻辑回归可用于预测类别型数据,这些数据通常都是二元数据,如欺诈与否、流失与否、信用好坏等;聚类分析是在不知道类标签的情况下将数据划分成有意义或有用的类,如客户细分等;主成分分析与因子分析都是用少数的几个变量(因子)来综合反映原始变量(因子)的主要信息,在大数据分析中常被用于对数据进行降维;利用典型相关分析方法可以快捷、高效地发现事物间的内在联系,如某种传染病与自然环境或社会环境的相关性等。