统计挖掘与机器学习:大数据预测建模和分析技术(原书第3版)
上QQ阅读APP看书,第一时间看更新

4.2 散点图

大数据不仅仅是当今信息世界的一大组成部分,它还包含了数字信息洪流中的有价值的要素。数据分析师在提取有价值要素时,发现自己深陷麻烦之中。大数据的一个影响涉及基本的分析工具:散点图上包含了过多数据点和信息。令人费解的是,基于更多信息的散点图反而反映出的信息较少。散点图显示了成堆的数据点,其中有太多点来自样本上的偏差,也就是说,这些点模糊了数据间的关系[1]。将这些云团从散点图中剔除,可以将隐藏在数据云背后的光滑关系重新显现出来。我提供了一个有过多数据的散点图示例,然后展示对应的光滑的没有云团的散点图,这种散点图可以揭示成对变量评估的本质特征。

散点图范例

我用数据真实展现了一项真实研究中两个变量之间的关系:HI_BALANCE(个人信用卡交易的最大余额)和RECENCY_MOS(上次购买至本次购买之间的月数)。数据挖掘程序的第一步是做出HI_BALANCE和RECENCY_MOS的散点图。显然这两个变量之间的关系在图上表现为一个不规则的发散的数据云团(图4.1)。为了减少图中的云团(揭示数据之间的平滑关系),我在下一节给出这幅图的平滑散点图。

图4.1 HI_BALANCE和RECENCY_MOS散点图

[1] 以定性变量X和Y做出的散点图不会显示出云的样子,而是显示对应于不同类别的两条或更多条平行线,或者一个点阵。在后一种情况下,散点图会显示出数据云团。