5.4 相关系数
相关系数用r表示,是卡尔·皮尔逊(Karl Pearson)在1896提出的概念。这个统计量在一个多世纪后的今天仍然是重要概念。这是仅次于平均值的最常用的统计量之一。相关系数的缺点和易被误用的警告也是众所周知的。作为一名在数据挖掘领域从事统计咨询和为在职人士讲授统计建模与数据挖掘持续教育课程的讲师[1],我经常见到相关系数的缺点和误用情况被人们忽视,这也许是因为它们在实践中很少被提及。
相关系数的值理论上应该在区间[-1,+1],具体是由两个相关的独立变量的分布决定的(参阅第9章)。相关系数的误用是指没有检验其线性假设,我们在本节讨论这个问题。
评估因变量和预测变量之间的关系是统计线性和非线性回归建模的一项基本工作。如果这个关系是线性的,则建模者需要检验这个预测变量是否足够统计显著,以决定是否将其纳入模型之中。如果这个关系是非线性或不明显的,则应将其中一个或两个变量重新表示,用时髦的术语就是数据挖掘,以重塑观察到的这种关系,将其变成一种经过数据挖掘的线性关系。然后这个(或两个)经过重新表示的变量便可以纳入模型中。
评估两个变量的关系的日常方法(数据分析师应牢记:这只限于线性关系)是计算相关系数。相关系数的误用是因为忽略了线性假设的检验,尽管这很容易做。(我在本章后面给出了一个明显的理由,但是仍解释不了为何这种错误会持续存在那么久。)我指出了这个线性假设,讨论了对这个假设的检验,并介绍了如何解读相关系数的值。
相关系数要求两个变量之间存在线性关系。如果两个变量的散点图展示出了线性特征,则这个相关系数可以作为这种关系的线性强度的量度。如果观察到的模式不是线性的或者不清晰,则计算这个相关系数是没用的,或者会得到有风险的结果。如果是后一种情况,那么数据挖掘应将这种关系进行校直。当所提出的数据挖掘方法不成功时,应探索其他数据挖掘技术,如分箱。这种方法超出了本节内容的范畴。此外还有很多数据挖掘方法[2-4]。
如果存在线性关系,则用r值可以量化表示线性关系的程度。为方便起见,我在这里重申解释相关系数的规则(见第3章):
1)0表示不存在线性关系。
2)+1表示完美的正线性关系:当一个变量的值变大时,另一个变量的值根据一个准确的线性规则也变大。
3)-1表示完美的负线性关系:当一个变量的值变大时,另一个变量的值根据一个准确的线性规则减小。
4)值在0和0.3之间(或0到-0.3)表示存在弱的正(负相关)线性关系。
5)值在0.3和0.7之间(或-0.3到-0.7)表示存在中等程度的正(负相关)线性关系。
6)值在0.7和1.0之间(或-0.7到-1.0)表示存在明显的正(负相关)线性关系。
我给大家展示一幅变量对(x,y)经过整理后的散点图,可以看到在一条直线周边的一堆数据点。相关系数r(x,y),从这幅散点图上看,能够确保r的值可靠反映x和y之间的线性关系程度。图5.1上的数据点并不是很有代表性,因为只用到了一个包含11个数据的小数据集。尽管如此,和包含更多数据(比如11 000个或更多数据的图)一样,结论仍是正确的。我把这样的图称作一朵纤薄的卷云。
图5.1 成对变量(x,y)经过整理后的散点图
[1] 数据挖掘行业的细分领域有很多,比如直邮营销和数据库营销,银行、保险、金融、零售、电信、保健、医药、出版与流通,大规模直接投递广告,目录营销、电子商务、网络挖掘、企业间(B2B)、人力资本管理、风险管理等。