统计挖掘与机器学习:大数据预测建模和分析技术(原书第3版)
上QQ阅读APP看书,第一时间看更新

10.6.3 测量校直数据

在第3章,我们详细讨论了量度两个变量X和Y之间线性相关系数。然而,我们还需要考虑另一个假设。在第3章,我将“线性假设”定义为X和Y的关系是线性的。第二个假设是隐含的:数据点(X,Y)处于个体层面。当从总量层面分析(X,Y)数据点时,比如本章讨论的logit值散点图和其他散点图,基于“大”点子的相关系数r也会比较“大”,可以粗略地作为r的个体层面的估计值。数据聚合减弱了(X,Y)数据点的特征,由此提高了数据点之间关系的可视化程度,所以r也增大了。所以说,聚合数据的相关系数可以作为原始变量X-Y关系程度的相关系数。但是聚合数据存在缺点:由于损失了一些用于区别个体的信息,所以得出的r值都很接近。