3.7 多重测试问题
本节介绍在AB实验中经常说的多重测试,以及发生多重测试后我们应该如何控制这个错误发生的概率。
3.7.1 什么是多重测试问题
通过假设检验的方式来判断实验结果,每一次判断都存在一定的概率判断错误。多重测试问题的本质是,如果判断的次数变多,这个错误的概率就可能增加。
举个简单的例子,假设我们以5%显著性水平,来判断实验结果,那每次判断正确(不犯第一类错误)的概率是95%。如果我们对同样的事情进行多次判断,比如开设了N个相同的实验组,并且进行N次判断,此时我们全部判断正确的概率变为(95%)N,判断错误的概率就变为1-(95%)N,都随着N的增加而增加,这时实验结论容易导致假阳性。在AB实验中,我们首先要尽量避免进行多重测试。如果多重测试无法避免,就需要对这个错误的概率进行控制。
3.7.2 如何避免多重测试
为了尽量避免多重测试的发生,首先需要明确哪些行为可能会导致多重测试。在AB实验的应用中,多重测试问题的主要来源有以下几个方面。
●多次重复进行相同的实验。比如进行一次实验后发现实验结果不符合预期,没有显著的正向效果,又重复进行几次相同的实验,可能某一次就出现了正向显著效果,这种情况就极有可能是多重测试产生的结果。图3-9所示的实验A中,实验A*和A**是在不同的时间进行的与A相同的实验。
●多次进行相同对比。比如一个实验组有多个对照组进行多次对比(图3-9中的实验B),或者一个对照组有多个相同的实验组进行多次对比(图3-9中的实验C),或者多个实验组与多个对照组之间进行多多对比,都属于这种情况。这里需要强调的是,多个实验组一定都是策略相同的实验才构成的多重测试。如果是不同策略的实验组,与同一个对照组对比不构成多重测试。在实践中,这种情况也非常常见,实验者出于各种考虑,开设了多个相同的实验组,实验结果发现有一个实验组有显著效果,其余实验组没有显示显著效果,很容易采用有效果的实验组数据作为实验决策数据,这非常容易导致实验结论的假阳性。
●实验进行过程中多次查看实验结果(图3-9中的实验E),即常说的实验偷窥,也容易导致多重测试。因为在进行实验的过程中,实验数据未达到稳定时会处于一个波动的过程中,有可能某个时刻呈现显著正向效果,某个时刻无显著效果,甚至某个时刻会显著负向。如果随机在实验过程中偷窥实验结果,刚好看到某个显著正向,就很有可能导致实验过早停止,导致实验结论假阳性。
●同一个实验有多个指标的情况(图3-9中的实验D)。在一些大型公司的实验平台上,每个实验都有成百上千个指标在运行和计算。在为每个实验计算了数百个指标之后,我们通常会从产品专家、实验人员那儿听到这样的疑问:为什么某个不相关的指标出现了显著变化?这里有一个简单的方式来看待这个问题,假设我们为实验计算了100个指标,那么即使产品功能什么也不做,也会有一些指标在统计上显著变化。由此可见,有多个实验指标的时候,容易出现假阳性,错误发生的数量会增加,这时就会出现多重测试问题。
当我们有成百上千个实验、每个实验都有多个指标、多个对照、多次迭代、多次中途查看实验结果时,问题就会变得非常糟糕。进行比较的次数越多,造成假阳性的可能性就越大。为了尽量减少多重测试带来的问题,采取一些措施和规范是很有必要的。
●在构建实验指标体系的时候,核心实验指标的设置和选择要尽量少,一旦核心指标增加了,就会出现多目标的比较,造成假阳性的可能性就会变大。
●在实验过程中不要多次查看实验结果,不以实验过程的数据作为实验结果的判断依据。
●在不可避免要进行多重测试的时候,选择适当的统计方法来处理多重比较的问题,控制第一类错误的发生率(假阳性率),对于提升实验推断的可靠性和成功率至关重要。
图3-9 几种常见的多重测试情况
3.7.3 如何控制多重测试问题
有时不可避免地要进行多重测试,比如实验有多个关键指标需要观察。在这种情况下,需要确保多次测试中,第一类和第二类错误仍得到合理控制。
控制总体第一类错误,最常用的是Bonferroni法,其基本原理是:若进行n次检验,显著性水平(检验水准)α应校正为α/n,或将P值乘以n后再与α比较。比如,某AB实验具有3个指标,采用Bonferroni法进行多重性校正后的检验水准α=0.05/3=0.0167。Bonferroni法虽然可以控制有多个指标实验的总体第一类错误率,但该方法太保守了,要求太严苛了。后来,Bonferroni法也出现了多种扩展形式。
1.Fallback法
以一个信息流实验为例,该实验关注的结果指标有两个——用户人均使用时长和次日留存率。由于该实验具有两个结果指标,因此采用Bonferroni法,在双侧α=0.05的水平上控制总体第一类错误率,但总体第一类错误率在不同指标之间进行了不均匀分配。如图3-10所示,该实验中检验分为两步。
第一步,进行人均使用时长的组间差异检验,定义在P值≤0.01的水平。如果人均时长指标差异显著,则确证次日留存率获益的概率可能会增加。
第二步,做如下考虑:如果第一步中人均时长差异显著,那么次日留存率的分析将设定在更高的水平,P值≤0.05;否则,第二步的分析将设定为P值≤0.04。
图3-10 Fallback检验决策规则
2.Holm法
Holm法显示了将α平均分配检验策略,如图3-11所示。
图3-11 Holm检验决策规则
第一步,指标1的显著水平建立在P值≤0.025的水平。
第二步,如果指标1效果显著,那么指标2的显著性水平为P值≤0.05;如果指标1的效果不显著,那么指标2的显著性水平为P值≤0.025。
第三步,如果第一步中指标1效果不显著,那么可以对指标1再次检查。如果第二步中指标2的效果显著,并且指标1的P值≤0.05,那么指标1的显著效果被确证。注意这里的指标1和指标2一般是有先后顺序的,在检验指标2之前先检验指标1。
Fallback法和Holm法也可以简单扩展到具有3个或者更多指标和对比的实验中。这两种修正方法,比较简单和保守,使用了一个一致但小得多的P值阈值(比如Holm法,α除以指标数)。这在目标指标非常多的时候通常不适用,那应该怎么做呢?这里还有一个简单的经验法则。
●将所有指标分成3组:一阶指标,那些预计会受到实验影响的指标;二阶指标,那些可能会受到影响的指标;三阶指标,那些不太可能受到影响的指标。
●对每一组应用分级显著性水平(例如,分别为0.05、0.01和0.001)。
这些经验法则基于一种有趣的贝叶斯解释,在进行实验之前,你相信H0是正确的吗?信念越坚定,应该使用的重要性级别就越低。
通过对AB实验相关统计学知识的系统学习,我们清晰地掌握了方差估计、假设检验、显著性水平、置信区间、第一类错误、第二类错误、统计功效、非参数检验、多重测试等重要的概念。