2.2.1 小分组问题_动手学差分隐私-QQ阅读男生历史网

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

2.2.1 小分组问题

在很多情况下，我们需要将数据分组，并分别给出各个分组的聚合统计结果。举例来说，我们可能想知道取得不同学位的个体的平均年龄。

一般认为，对数据进行聚合处理可以提升数据的隐私保护效果，因为很难识别出特定个体对聚合统计结果所带来的影响。但如果某个分组只包含一个个体呢？在这种情况下，聚合统计结果将准确泄露此个体的年龄，无法提供任何隐私保护。在我们的数据集中，大多数个体的邮政编码是唯一的。因此，如果我们计算不同邮政编码所属个体的平均年龄，则大多数“平均值”将直接泄露单一个体的年龄。

例如，美国人口普查局以街区为粒度（见https://www.census.gov/newsroom/blogs/random-samplings/2011/07/what-are-census-blocks.html）发布聚合统计数据。有些人口普查区的人口众多，但有些人口普查区的人口为0。事实证明，聚合统计结果无法隐藏小分组的个体信息的情况相当普遍。

分组要达到多大，聚合统计结果才能隐藏个体信息？这个问题很难回答，因为只有知道数据本身和具体的攻击方法时，才能回答这个问题。因此，很难确信聚合统计结果真的能达到隐私保护的目的。然而，我们接下来将会看到，即使分组足够大，也可以实施相应的攻击，从聚合结果中获得个体信息。