1.5 数据架构
数据存在于企业的各个部门,在不同的业务流程或者系统之间流动,同时也会产生新的数据。数据流动的过程也是企业进行商业活动的过程。数据是企业资产的一部分,但很多企业在利用数据这个资产时往往会出现一些问题,究其原因,它们并未对数据进行有效的管理,导致企业无法通过既有数据准确地洞察客户、产品或者服务情况等。
按照全国金融标准化技术委员会(简称金标委)的定义,数据架构包括元数据管理、数据模型、数据分布、数据集成等;按照《华为数据之道》[1]中的定义,数据架构包括数据资产目录、数据标准、数据模型、数据分布等。经过这些年的发展,总的来看,数据架构主要由四部分构成:一是资产目录,主要职责是梳理企业的数据资产;二是数据标准,制定企业数据标准并持续维护;三是数据模型,根据企业业务建立数据模型,包括概念模型、逻辑模型及物理模型等;四是数据分布,主要管控数据的分布,包括数据源及数据传输环节等。
数据架构的作用是解决企业在使用数据过程中可能产生的找数难、用数难、数据不准等问题。
1.5.1 数据架构设计
前文说到,业务架构是技术与业务的黏合剂,那么数据架构就是业务流程与技术系统之间的转接器。技术系统通过数据对象完成业务流程,业务流程通过数据对象传递流程状态,彼此之间循环往复。
总的来看,数据架构的设计主要分为两个方向:一是面向业务流程进行设计,二是面向业务对象进行设计。两者最大的区别在于当业务发生变化时,整体架构的变化不同。但是从具体实践的角度来看,大多数数据架构是面向业务对象进行设计的,因为在具体的企业中,业务对象相对固定,换句话说,业务对象的变化相对缓慢,所以一般通过确定业务对象以及业务对象之间的关系完成整个业务流程。常见的数据架构如图1-7所示。
图1-7 常见数据架构
1.5.2 数据架构核心组成
面向业务对象设计数据架构的过程必然会涉及数据模型的设计。数据模型可以使人们对业务过程有一个更加直观、全面、深入的认识,从而帮助人们更好地解决问题。数据模型是数据架构的核心组成部分,因为没有数据模型就没有数据资产及数据标准等内容。所有的数据资产及数据标准所管理的对象本质上都是数据,而数据模型是对于数据特征的抽象,它描述了系统的静态特征、动态行为和约束条件。
数据模型主要分为三类,即概念模型、逻辑模型和物理模型,其中:概念模型代表的技术手段是E-R图,反映现实世界的关系;逻辑模型是一组严格定义的概念的集合,精确描述系统的静态特性、动态特性和完整性约束条件,例如对象之间的关系、数据是否可以删除等;物理模型主要代表在数据库(或者持久化存储层)中存储的具体形式。
数据模型是数据架构在业务层面的重点,也是本书的一个重点,后续章节会重点介绍数据模型的方法论以及相关技术选型。