上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
2.1.2 Karrie很特别吗
在数据集中重标识出其他个体的难度有多大?重标识出Karrie这一特定的个体相对更难还是相对更简单?衡量此类攻击的有效性的一个好方法是查看特定数据是否有较好的“筛选效果”:特定数据能否帮助我们更好地缩小目标个体所属行的范围。举个例子,数据集中拥有相同出生日期的人数多吗?
在执行攻击前,我们可以先评估一下出生日期这一辅助数据会给我们带来多大的帮助。为此,我们可以查看数据集中包含“唯一”出生日期的个体数量。图2-1的直方图显示,绝大多数出生日期在数据集中仅出现了1次、2次或3次,有8个个体的出生日期信息是缺失的。这意味着出生日期的筛选效果相当不错。出生日期可以有效缩小个体所属行的范围。
图2-1
我们可以利用相同的方法衡量邮政编码的筛选效果。这次的结果变得更夸张了:邮政编码在此数据集中的筛选效果非常好。几乎所有的邮政编码在此数据集中都只出现了一次(见图2-2)。
图2-2