结构化数据
【导读】世间万物,皆可变为数据。其中,那些具有一定格式、满足一定条件,看起来整齐、有规律的数据就是结构化数据。
数据(data)就是一组表示客观事实的可鉴别的符号,它可以是数字、字符、声音、图形、图像和视频等。
在自动控制、计算机和通信技术领域,数据被引申为数字化的信息,主要是指用二进制数字0和1所表示的信息,通俗地说,就是可以在计算机中通过一定的算法或模型进行处理的信息。
什么是结构化数据
结构化数据(structured data),是具有一定格式、满足一定条件的数据。这里的格式与条件,通常指的是数据的一系列属性或者特征,也被称为定量数据,是能够用数据或统一的结构加以表示的信息。结构化数据在二维关系上,也称作行数据,一般特点是:数据以行为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的。典型的结构化数据包括信用卡号码、日期、财务金额、电话号码、地址、产品名称等。
结构化数据的一列通常称为一个字段,即一种变量,在数据库中每个字段都包含某一专题的信息。例如,在员工信息数据库中,"姓名""性别"这些列都是表中所有行共有的属性,所以把这些列称为"姓名"字段和"性别"字段。
结构化数据是可以分割的,它们既可以单独使用,也可以在适当情况下作为一个独立的单元使用。
例如,小美上的幼儿园有5个班级,每个班级都有自己的学生花名册,每本花名册都是相同的格式,五本花名册可以用同样的格式组合成一本全幼儿园的学生花名册。这些花名册都是结构化数据,它们既可以分班级使用,也可以合并起来作为校园花名册整体使用。
结构化数据的存储
结构化数据可以存储在关系数据库中。每当我们使用台式电脑、笔记本电脑或智能手机的时候,都是在访问存储在数据库中的数据。
为了管理这些结构化数据,需要使用关系数据库管理系统来创建、维护、访问和控制数据,并使用结构化查询语言对其进行检索。
结构化查询语言(structured query language,SQL)极大地方便了对关系型数据库信息的查询。在结构化查询语言发明之前,用户要想查询信息,首先需要了解各个数据库的组建规则,进而根据组建规则制定出信息的查询规则,才能搜索出想要的信息。有了结构化查询语言之后,用户无须了解数据库的组建规则,也不需要自己去设置查询规则,结构化查询语言会自动在后台实现这一过程。
举个例子,如果用户想求解一个多边形的面积,在有结构化查询语言之前,首先需要知道怎么拆分多边形,比如分成多个三角形、四方形等,然后把这些小图形的面积加起来算出多边形的面积,或者用复杂的微积分等其他方法来解决问题。这要求用户首先得知道用什么方法去计算面积,但是有了结构化查询语言之后,用户只需要知道目标是想要多边形的面积,不需要知道是用拆分图形法还是微积分法算出来的这一过程,而可以直接运用该语言查询出结果。
随着数据库容量的逐渐增大,它就会变得缓慢且不可靠。当数据的规模增大到单一节点的数据库无法支撑时(如达到TB、PB及以上级别),关系数据库管理系统就不能再有效工作,即使对于结构化数据来说也是如此。这时候,就需要用到分布式存储技术。
分布式存储技术并不是将数据存储在某个或多个特定的节点上,而是通过网络使用企业中各机器上的磁盘空间,并将这些分散的存储资源构成一个虚拟的存储设备,将数据分散地存储在各个角落。分布式存储又可以用垂直扩展与水平扩展两种方式来进行。
垂直扩展比较好理解,简单来说就是按照列切分数据库,将不同功能的数据存储在不同的数据库中,这样一个大数据库就被切分成多个小数据库,从而达到了数据库的扩展。
什么是水平扩展呢?可以将数据库的水平拓展理解为按照数据行来切分,就是将表中的某些行切分到一个数据库中,而另外的某些行又切分到其他数据库中。为了能够比较容易地判断各行数据被切分到了哪个数据库中,切分需要按照某种特定的规则来进行,如按照某个数字字段的范围、某个时间类型字段的范围进行切分。
一起来看下小美幼儿园储存食物的例子,来理解下这几个概念。
气象台发布了台风预警,小美所在幼儿园的厨房为了保障食材供给,需要临时储备大量的食材(可看成做菜的"数据")。平时,食材(数据)都是集中存放在幼儿园中央厨房的大冰箱(数据库)里,现在大冰箱空间不够用了,园长决定把各班级的储藏室都用来存放食材,这样就分散了大冰箱的存储压力。在存放之前,园长让采购老师把所有采买的食材都登记在一张电子表格清单(结构化数据)上。
如果按照早餐、午餐、晚餐(不同功能和价值)需要用到的不同食材来进行分开存储,例如早餐的食材存放在班级A的储藏室,午餐的食材存放在班级B的储藏室,这样就类似于垂直扩展;如果不论食材做什么用,在清单上都以采购时间先后的顺序,分别进行存储,如周一采购的食材存放在班级A,周二采购的食材存在班级B,这样就类似于水平扩展。
不论是垂直扩展,还是水平扩展,目的都是通过分布式技术加快对结构化数据的处理效率。
【扩展概念】
关系型数据库:是依据关系模型创建的数据库。所谓关系模型,就是一对一、一对多、多对多等二维表格模型,因而一个关系型数据库就是由一个二维表及其之间的联系组成的数据组织。关系型数据库可以很好地存储一些关系模型的数据,比如不同科目老师对应多个学生的数据(多对多),一本书对应多个作者的数据(一对多),一本书对应一个出版日期的数据(一对一)。