1.2 数据分类的原则与实施
数据分类是根据预先定义的、特定于领域的标准对数据进行分类,并持续优化的过程。毫无疑问,准确地识别和分类组织的信息系统中处理的数据,对于正确选择安全控制措施并确保系统及其数据的机密性、完整性和可用性至关重要。
数据分类是保护数据安全的基础。微软公司在RSA 2016发表的“数据分类:感化那个信息安全的傻小子”(Data Classification:Reclaiming Infosec's Redheaded Step Child)演讲[1]中表示,信息安全从数据分类开始。
数据分类需要涵盖数据生命周期中的各个阶段。依据数据使用的目的和场景,数据的分类方式存在很多种。在数据安全场景下,一般依据数据的类型、敏感性和价值来标记数据。
从业务背景角度,数据分类很容易理解。在人们的生产和生活中,经常会用到各种各样不同类型的数据。以典型的企业环境为例,销售和技术支持团队可能会维护客户数据(如客户的通信地址、电子邮箱和电话号码);财务分析师和战略分析师可能接触到企业的运营和财务数据;HR(人力资源部门)需要负责组织内员工的薪酬、绩效等人事数据;软件开发者需要处理软件产品的源代码库;网络运维和安全运维人员可能掌握组织的网络拓扑和账号信息。基于这种数据分类的交叉数据访问,往往不具备实际的业务目的,如HR访问软件产品的源代码库,网络运维人员访问客户数据,这些都应该被数据最小授权原则所限制。数据分类的思想也是源自这种朴素的场景进行划分的。
美国运营商Verizon发布的《2019年数据泄露调查报告》[11](2019 Data Breach Investigations Report, DBIR)数据显示,基于对2019年41 686起事故和2013起确认的数据泄露事件的分析,34%的数据泄露由组织内部的因素引发,且来自组织内部的数据使用者凭借组织对他们的信任而滥用数据。而对共计292起涉及误用的数据泄露调查显示,特权滥用占比接近80%,数据的误使用占比45%。因此,在数据安全的实践中,数据的分类及基于数据分类的访问控制势在必行。
然而,实际上,微软公司在RSA 2016发表的演讲指出,基于其调查,55%的IT专业人士认为数据分类太复杂,很难规划、管理和部署;63%的IT专业人士不确定自己所在组织的分类策略是否和数据的创建、使用和分享方式保持一致;甚至,88%的IT专业人士表示会忽略或绕过组织的数据分类策略。数据分类的普及、推行,不管是从管理层面,还是从技术层面及人员意识层面,都任重而道远。
在实现维度,数据分类模型可以概括为数据的识别方式和数据的持久化标签机制。
基于本书对数据生命周期的描述,数据可以划分为结构化数据和非结构化数据两大类,针对这两类数据的识别方式也有不同。数据分类模型如图1-12所示。
在创建数据时,应该基于数据的商业价值,识别出有价值的数据和价值相对较低的数据,并针对高价值数据定义和实施合适的访问控制措施。
对于结构化数据,其识别和分类相对简单;而对于非结构化数据,其识别和分类存在难点。
数据分类有三种主要类型,分别是基于内容,基于上下文和基于用户。其中,前两者可以做到一定程度的自动化。自动化的数据分类是搜索、识别数据内容,并基于数据内容进行数据分类的过程,可以形象地比喻为找到网站上所有包含“数据安全”几个字的页面。当然,在实际场景中更重要的是,在海量的数据存储中识别和发现需要保护的数据资产,特别是个人数据、敏感数据和知识产权数据等。
图1-12 数据分类模型
例如,基于内容的数据分类技术可以通过文件解析器读取所支持的文件中的内容,然后将该内容与目标字符串或数据进行匹配。基于上下文的数据分类技术则会考虑数据的位置和应用程序。而基于用户的数据分类技术属于人工识别,取决于用户的知识和判断力。自动化的数据识别和分类在不同的应用场景存在局限性,也需要人工识别作为补充。对于小型组织及不涉及敏感数据的组织,人工识别和分类甚至可以作为主要方案。此外,人工识别和分类一般更为精确,并有助于提升利益相关方对于数据敏感程度的认识,且有利于组织的数据安全文化建设。
部分数据分类的实现机制涉及元数据的处理。元数据是指“有关数据的数据”,也就是“为其他数据提供信息的数据”。元数据可以被隐含、指定或直接给出。例如,当接收温度数据时,默认假设数据具有“当前时间”的时间参考,因此设备将日期、时间与温度数据记录在一起。当数据记录器传达温度时,它还必须报告每个温度的日期和时间,也就是这个场景下的元数据,此时元数据为隐含给出。在数据分类的场景下,数据的分类一般会在元数据中显式给出。
总之,各类组织均会收集、生成、处理、传递大量数据。实施有效的数据分类,可帮助组织进行以下工作。
(1)有效地组织相关数据。存储不必要的数据或重复的数据不仅昂贵,而且还可能淹没重要数据,导致错误判断,甚至损害业务。通过数据分类,可以发现数据的潜在关联,并丢弃异常值。
(2)使数据可访问。数据分类可确保合适的人员可靠、及时地访问数据。此外,标记数据有助于数据被发现并提高生产率。有了清晰的数据结构,组织中的各个角色都可以更快地找到需要的东西。
(3)确保数据安全。分类是识别组织拥有的数据类型并正确保护敏感信息的关键。数据分类策略用于授权谁可以访问关键数据。保护数据并限制其访问权限,可以使组织在一定程度上抵御网络攻击,并减轻数据泄露的影响。
(4)符合法规要求。商业数据通常与特定行业的法规联系在一起,这些法规要求各类组织保护敏感数据,如个人数据、信用卡信息和健康记录。数据分类对于确保合规性标准并成功通过审核至关重要。
(5)执行数据分析。对数据进行分类使组织能够发现趋势并获得洞察力,从而可以回答问题并做出明智的决策。通过数据分析,组织可以了解特定事件的原因,预测未来的结果或衡量给定行动的有效性。