1.1 数据隐私的产生
隐私作为一个概念,大约有150年的发展历史。该概念的发展得益于以下两个事实:一是伴随着人类文明的不断发展,人类对隐私的需求与渴望不断增加;二是随着信息技术的发展,隐私与新技术变革之间产生了新的冲突。本节从社会发展与数据发展两个角度对隐私的发展进行介绍,说明数据隐私是如何在社会与技术的相互作用下产生的。
1.1.1 社会发展视角下的隐私
根据隐私发展的概念与技术的不同特征,我们将隐私的发展概括为3个时期,即萌芽期、形成期和发展期,分别对应于5个阶段。
1.隐私的萌芽期在纸质媒体时代,对应于媒体隐私阶段
该阶段的隐私问题主要指以私人生活为主要内容的纸质媒体信息的披露,需通过法律法规进行保护和约束。
在19世纪的纸质媒体时代,以报纸为代表的新型媒体是最早披露个人隐私的信息技术。1873年,处于经济萧条时期的美国,在“黄色新闻”思潮的影响下,报纸媒体刊登了诸多具有感官刺激性的低俗、隐私的新闻。该时期,美国律师Samuel Warren及其夫人举办的家宴和其女儿的私人婚礼照片被报纸公开。为强烈谴责该行为,实现保护个人隐私的诉求,美国律师Samuel Warren和Louis Brandeis于1890年在《哈佛法学评论》上发表了《隐私权》[1],至此,“隐私权”的概念被明确提出。虽然当时该文章未得到广泛关注,但其后的几十年间,隐私相关法案日益增多,如美国1974年制定了《联邦隐私权法》,欧盟1950年出台了《欧洲保障人权和基本自由公约》。
2.隐私的形成期在计算机时代,对应于计算机隐私阶段
在该阶段,隐私数据以企业计算机内存储的、数据量有限的、结构规范化的数据为主,隐私问题主要来源于对企业数据库中数据的攻击与窃取,并以密码学技术为主要保护途径。
在20世纪60年代,即计算机时代,信息技术的革新使得大型计算机开始挑战人们对隐私的传统认知。该阶段,随着计算机的出现,以及文件管理系统、数据库系统等技术的发展,大量的企业数据被存储和使用。该时期,美国联邦政府投入了大量资金对相关技术进行研究,消费者信用局(Consumer Credit Bureaus)建立了包含上百万个人财务信息的数据库。大量与个人相关的、以企业为主体的数据的汇集,令人们开始担忧这些计算机数据是否会被入侵或遭到泄露,从而威胁个人隐私。为抵御该威胁,现代密码学技术发展起来,人们制定了数据加密标准(Data Encryption Standard,DES)[2]、高级加密标准(Advanced Encryption Standard,AES)[3]等密码学标准,形成了公钥密码学[4],并基于此发展出了加密数据库等技术。
3.隐私的发展期在信息技术快速发展的时代,包含三个阶段
根据信息技术发展的特征,我们将发展期划分为互联网隐私、大数据隐私和人工智能隐私三个阶段,分别对应于互联网时代、大数据时代和人工智能时代这三个技术发展时代。
(1)互联网隐私阶段
在该阶段,个人数据而非企业数据,成为数据发布中隐私保护的主要对象,主要通过k-匿名的技术进行保护。
在20世纪90年代,即互联网时代,全球互联网逐步形成。自2000年起,随着互联网用户的增加,互联网在现代日常与经济生活中发挥着日益重要的作用。在该背景下,用户个人数据数量激增,基于这些个人数据,数据挖掘等算法飞速发展,以发挥数据价值。数据的共享与开放成为科技进步的基础条件,此时,对用户个人隐私信息进行保护十分关键。
早期,人们仅通过对数据主体进行匿名以保护发布数据中的个人隐私,但这样仅删除用户的唯一标识是不够的。1997年,哈佛大学教授Latanya Sweeney从马萨诸塞州保险委员会公布的、已删除用户标识符的患者数据中,通过将这些患者数据与该州的选民数据进行链接的方法,成功确认州长的身份,找到了其健康记录,并研究发现87%的美国人拥有唯一的性别、出生日期和邮编三元组信息,可被唯一识别。该研究结果对以隐私为中心的政策制定产生了重大影响。1998年,Sweeney教授正式提出了k-匿名技术来保护发布数据中的隐私。k-匿名技术[5]基于数据中的敏感字段,将个人记录隐藏在一组相似的记录中来匿名数据,从而大大降低个体被识别的可能性。在其后的近10年间,该隐私保护技术飞速发展。
(2)大数据隐私阶段
在该阶段,数据以海量的个人数据为主,隐私问题主要体现在大规模数据收集中的隐私泄露问题,主要通过差分隐私的技术进行隐私保护。
21世纪10年代,大数据技术飞速发展,云计算等框架获得了广泛应用,我们进入了大数据时代。该阶段个人数据的收集愈发频繁与广泛,随之产生的海量数据对计算机数据处理的能力提出了新的要求。k-匿名技术对数据扰动的方式,会严重影响数据的可用性;同时,该技术几经演化,但仍被证明不能应对背景知识攻击。2006年,Netflix举办了一场预测算法比赛,并公开了匿名后的用户电影评分的数据集,Netflix把数据中唯一识别用户的信息抹去,但是来自得州大学奥斯汀分校的两位研究人员通过关联Netflix公开的数据和互联网电影数据库(Internet Movie Database,IMDb)网站上公开的记录成功识别出匿名后用户的身份。
同年,微软研究院的Cynthia Dwork提出了差分隐私的概念[6],对隐私泄露风险进行了严谨的数学证明和定量化表示。该技术可以抵御任意的背景知识攻击,它通过对原始数据进行扰动保护数据隐私,同时通过保证最终的数据分布几乎无改变来保证数据可用性。而后,2014年谷歌的Úlfar Erlingsson提出了本地化差分隐私框架与方案[7],将数据扰动的操作移至用户端,从而避免传统差分隐私算法对可信第三方的依赖。该项技术在谷歌、苹果、微软等公司获得了广泛的应用,并引起了学术界和工业界的广泛关注。
(3)人工智能隐私阶段
在该阶段,数据以维度更加丰富、粒度更加细腻、体量更加庞大的个人与社会数据为主,数据隐私问题、算法公平问题、数据透明问题是当下广义隐私上的主要问题,混合的隐私保护技术应是主要研究手段。
当前,随着5G与物联网等新基建的发展,人工智能、万物互联成为社会发展的主要趋势。在该阶段,数据将不再局限于之前的个人数据,通过个人移动设备、个人穿戴设备、城市传感器等,海量、异构、多维度的个人与社会数据源源不断地产生,对数据隐私保护提出了新的挑战。此时,数据的隐私也不局限于个人隐私信息的泄露问题,由数据驱动的机器学习算法的公平问题,数据收集、使用、共享、流通过程中的透明化问题,在该阶段都更加显著[8]。
不得不注意的是,当下密码学技术、k-匿名技术、差分隐私技术已逐步发展成熟,每种技术的优缺点都十分清晰。密码学技术需在数据隐私性与计算通信效率之间进行取舍,k-匿名技术和差分隐私技术则需在数据隐私性和可用性之间进行平衡。因此,如何根据实际问题,将多种隐私保护进行混合,如将密码学技术和差分隐私技术进行混合,扬长避短,以实现既定的隐私保护目标应为当前的主要手段。
基于上述内容,我们对各阶段的隐私的发展进行总结,如表1.1所示。通过对比,我们可发现,隐私发展的进程随着技术的进步在不断加速。近5年来,公众和政府对隐私的关注度不断上升,对隐私问题的研究进入前所未有的黄金时代。通过分析知网上主题为“隐私”的论文数随年份的变化(如图1.1所示),我们印证了该结论。
表1.1 隐私发展的阶段及特征
图1.1 知网上主题为“隐私”的论文数随年份的变化(截至2021年12月13日)
1.1.2 数据发展视角下的隐私
从社会发展视角下的隐私我们可以发现,隐私的产生本质上随着数据的产生方式及特征的不断转变而演化。由此,本节将从数据的角度重新审视隐私的发展过程。我们可以发现,隐私问题在数据发展的初期并不显著,它随着数据体量与维度的增加而逐渐凸显。我们根据数据的产生方式与特征的不同将该发展过程划分为4个阶段。
1.计算机发展初期
在20世纪40~60年代,数据通过自然观察、科学实验、统计调研等方式人为生成,多为数值型数据,借助计算机完成复杂的科学运算,促进自然发现、社会统计等学科的发展。同时,伴随着计算机存储设备的发展,出现了文件系统、批处理等技术,从而对数据进行管理。此时的数据面临的主要问题更多集中于数据的正确性、共享性等应用问题,并不注重隐私问题。
2.传统数据库时代
在20世纪60~90年代,数据在企业等运营式系统的运营过程中由数据源被动产生,数据采集成本较高,故多以企业数据为主。此时数据结构规范有序,数据量相对有限,人们对数据的认识停留在“管理数据”的阶段,发展出数据库、数据仓库、数据集成等技术。该阶段,数据面临的主要问题是安全问题,仍与隐私问题有着本质的区别。数据安全是为了保护企业数据不被攻击者非法入侵、获取,确保结果的正确性和完整性。
3.大数据时代
20世纪90年代至今,数据采集愈发廉价,数据在个人移动设备、穿戴式设备、传感设备上源源不断地主动产生,数据结构复杂异构,数据加速增长。此时的数据主要以个人数据为主,具有海量的数据集特性,人们开始“理解数据”,并由此发展出基于数据驱动的人工智能、数据挖掘等技术。与此前借助符号进行逻辑推理不同,该阶段技术发展的本质是海量数据驱动的结果,产生了与此前截然不同的伦理问题。一方面,数据作为驱动算法的“燃料”,数据垄断与隐私问题层出不穷;另一方面,非规则的算法决策与黑盒模型使决策可解释、公平问题备受关注。在这些问题中,隐私问题尤为凸显。也是在该阶段,隐私问题逐步成为大众关注的重要议题。
4.5G与万物互联时代
在我们即将步入的工业4.0时代,数据量将会爆炸式增长,数据描述社会的粒度将会更加细腻,相应地,数据应用的过程中隐私、公平等伦理问题将更加严峻。此时,需要我们从“敬畏数据”的角度探索数据价值与数据伦理的双重实现。我们不能一味地追求数据价值的最大化,也不能为了隐私拒绝数据的应用。我们应考虑隐私问题的独特性,考虑隐私问题与垄断、公平等其他伦理问题的相互影响,从数据生态的角度思考该问题的解决之道。