妙趣横生的统计学:培养大数据时代的统计思维(第四版)
上QQ阅读APP看书,第一时间看更新

1.2.1 偏差

假设在电视收视率案例的5000个家庭样本中,尼尔森仅选择常常夜间轮班的工薪家庭。它会发现样本中的家庭很少观看深夜节目(因为上夜班的人不能在家里观看深夜节目)。很明显,这个样本不能代表全部的美国家庭,据此得出“深夜节目在美国人中不受欢迎”的结论是错误的。我们说这个样本是有偏差的,因为它并不包含所有典型的美国家庭(在实际的样本选择中,尼尔森尽力避免这些明显的偏差)。偏差在设计和进行统计研究时会引起许多问题,并使结果趋向于我们偏好的特定结果。我们不能相信一个有偏差的研究结果。

如果统计研究的设计和实施趋向于一个偏好的特定结果,那么它可能存在偏差。

偏差产生的途径有如下几种。

·如果样本中的个体在某些方面与总体的个体有区别,则说明该样本存在偏差。在这种情况下,研究结果将反映样本的特有性质,而不是总体的普遍特征。

·如果研究者倾向于某一特定结果,则会产生偏差。在这种情况下,研究者会有意无意地曲解数据含义。

·如果在收集数据时,有意无意地选择了不具有总体代表性的数据,则说明数据设定本身存在偏差。

·即使研究已经完成,也可能存在报告偏差。例如,一个数据图表可能只反映了部分事实,或歪曲了数据(见3.4节)。

减少偏差是统计研究中的一项巨大挑战。因此,寻找偏差成为评估统计研究或媒体报道的重要步骤。

例2 为什么使用尼尔森数据

尼尔森媒体研究通过向电视台和网站收取服务费来赚钱。例如,NBC向尼尔森公司支付费用来获取电视节目收视率数据。为什么NBC自己不统计数据,而是购买另一家公司的数据呢?

答案 电视节目所能赚取的广告费,取决于广告的收视率。收视率越高,广告费就越高。这意味着如果NBC自己统计其收视率,将会存在很大的偏差。因此,广告客户不会相信NBC本公司统计的收视率。通过租用相对独立的数据资源,如尼尔森数据,NBC公司可以提供让广告客户更能信任的收视率信息。

思考时刻

实际上NBC购买尼尔森公司数据的同时,也给尼尔森一个机会让NBC的收视率看起来还不错。如果你是广告代理,尼尔森收视率还有其他别的因素能帮助你获得信心吗?