1.2.2 数据分类框架
在现代企业应用系统中,部分系统支持采用信息检测技术和数据分类模板来建立初始的数据分类。数据分类的结果可以嵌入数据中,或者关联到元数据,如数据库的字段关联、字段类型或文件系统。数据分类方案及其应用应该涵盖整个数据生命周期,从而帮助组织更好地存储、使用、传输数据。数据分类是数据保护的前提,其能够有效地降低数据的风险,提升数据泄露防护、加密及其他安全措施的效率。
1.数据识别
数据可以分为结构化数据和非结构化数据。结构化数据是指符合数据模型的数据,具有明确定义的结构,遵循一致的顺序,并且可以由人或计算机程序轻松访问和使用。结构化数据通常以定义明确的模式存储,如传统的关系型数据库。结构化数据通常是表格形式的,具有明确定义其属性的行和列。SQL(Structured Query Language,结构化查询语言)通常用于管理存储在数据库中的结构化数据。
与之相对应,非结构化数据是未按预定义方式组织或不具有预定义数据模型的数据,因此不适用于主流关系型数据库。对于非结构化数据,存在用于存储和管理的替代平台。非结构化数据通常包含文本、语音、图片、视频、PDF文档、媒体日志等格式的数据,在IT系统中的应用越来越广泛,并可以用于各种商业智能和分析应用程序中。
组织常见的数据分类的方案示例,如图1-14所示。
图1-14 数据分类方案示例
2.持久化标签
数据分类结果的数字化表示,需要以持久化的方式伴随数据并以元数据的形式存储,或者存储在独立的位置,并维护数据直到其分类标签的映射。这种持久化的数据分类结果,一般称为“持久化标签”。
以办公环境中的文档为例。微软公司的Azure云和Office 365的信息保护支持两套基于文档,并以元数据的形式存储的标签机制。一套标签机制是美国政府信息安全分类系统,该系统由“第13526号行政命令:国家安全信息分类”(Executive Order 13526:Classified National Security Information)[17]定义。在该系统中,存在三种级别的数据分类。每种级别的数据分类都有一个描述,说明何时应该应用该分类。
(1)最高机密(Top Secret):未经授权的披露,预期会对数据所属的机构或描述的国家安全造成极大的破坏。
(2)机密(Secret):未经许可的披露,预期可能会严重损害数据所属的机构或描述的国家安全。
(3)秘密(Confidential):未经许可的披露,预期会对数据所属的机构或描述的国家安全造成损害。
此外,另一套标签机制是指支持对于数据使用“未分类”(Unclassified)标签。这实际上不是一个有效的分类,而是代表其分类尚不明确的场景。
在商业或私营部门的应用中,也可以定义一个类似Azure云信息保护服务的默认列表,并用可能造成损害的金额来协助判断。
(1)高度机密(Highly Confidential):应适用于信息,未经授权而合理的披露可能造成超过100万美元的损失。
(2)机密(Confidential):应适用于信息,未经授权而合理的披露可能导致超过10万美元的损失。
(3)一般(General):应适用于信息,未经授权的披露应合理地预期不会造成可衡量的损害。
(4)公开(Public):应适用于公开、外部可以使用的信息。
(5)非业务(Non Business):应适用于与公司业务无关的直接或间接信息。
每种数据分类都描述了在未经授权的情况下披露信息会对企业造成的风险。在识别了这些分类和条件之后,应识别属性,以帮助数据所有者了解要应用的分类。
微软公司提供的Office 365办公套件支持手动和自动的敏感度标签。当文档的用户保存包含信用卡号的Word文档时,可能会看到一个自定义工具提示,以建议用户应用管理员配置的标签,此标签将对文档进行分类并保护。Office 365文档标签机制如图1-15所示。
图1-15 Office 365文档标签机制