“三人成虎”能用数学解释吗
对喜欢数学的人来说,在判断一件事情的可能性和一个消息的真实性问题上,有一个十分有用的定理:贝叶斯定理。成语“三人成虎”颇能体现贝叶斯定理的含义,所以我们先说说这个成语。
“三人成虎”这个成语的出处是在《战国策》和《韩非子》中。
战国时期,魏国大臣庞葱(恭)陪同太子前往赵国做人质。临出发前,他对魏王说:“如今有一个人说街市上出现了老虎,大王相信吗?”魏王回答:“我不相信。”庞葱又问道:“如果有两个人说街市上出现了老虎,大王相信吗?”魏王说:“我会有些怀疑。”庞葱接着说:“如果又出现了第三个人说街市上有老虎,大王相信吗?”魏王回答:“我当然会相信。”庞葱说:“很明显,街市上根本不会出现老虎,可是经过三个人的传播,街市上好像就真的有了老虎。而今赵国都城邯郸和魏国都城大梁的距离,要比王宫离街市的距离远很多,对我有非议的人又不止三个,还望大王可以明察秋毫啊!”魏王说:“这个我心里有数,你就放心去吧!”
果然,庞葱刚陪着太子离开,就有人在魏王面前诬陷他。刚开始,魏王还会为庞葱辩解,诬陷他的人多了,魏王竟然信以为真。等庞葱和太子回国后,魏王再也没有召见过他。
这个成语说明谣言说的人多了,就会使人相信。
不知道你听到有三个人说街上有老虎时,是否会相信他们的话?让我们就用数学中的条件概率和贝叶斯定理分析一下这个故事。
一个人告诉你街上有老虎,你往往不信,但三个人这样说,你就会相信了
“条件概率”,即一件事情发生时,另一件事情发生的概率。在生活中,我们会发现一些事件的发生往往会伴随另一个事件的更高或更低概率的发生,这种情况叫作事件的“相关性”。
相关性有“正相关”和“负相关”,还有定量分析相关性的参数,叫“相关系数”。取值范围从-1到+1。相关系数为-1,即彻底的“负相关”:一件事发生,另一件事必不发生。相关系数为+1,即彻底的“正相关”:一件事发生,另一件事必发生。相关系数为0,则表明两件事无关,一件事的发生,完全不影响另一件事发生的概率。
但是要注意,相关性不代表因果性,哪怕两个事件的相关系数为1,但这是题外话了,不做过多解释。在现实中,具有完全的正相关和负相关的事件非常少。
贝叶斯定理解决了如下问题:
已知A事件发生的情况下B事件发生的概率,如何计算B事件发生时A事件发生的概率?其中有个前提是已知A、B事件作为独立事件发生的概率。
这听上去有点抽象,让我们来看个例子。
例如,在“80后”和“90后”中,独生子女的比例特别高。以下是我杜撰的一些数据:
设全体中国人中没有兄弟姐妹的独生子女人口比例是30%。但在“80后”和“90后”的人口中,独生子女的比例达到80%。这个80%就是:当一个人是在1980年至1999年间出生的,其为独生子女的条件概率。这里,条件就是“此人为1980年至1999年间出生的”,记作:
P(某人是独生子女|某人是“80后”或“90后”)=80%
我把条件概率里的这个“条件”称为“条件事件”,而最终所求概率的事件称为“主体事件”。
有时我们也会想把条件事件和主体事件交换,考虑其概率。比如,已知一个人是独生子女时,此人是“80后”或“90后”的概率有多大?这种换位思考,在很多实际问题中是很有用的。
如果条件概率中,条件和主体交换,所得概率不变,那就没意思了。实际上,交换后的概率结果在多数情况下是会改变的,贝叶斯定理就给出了这样一个计算公式,前提是,我们得知道“条件事件”和“主体事件”作为“独立事件”发生时的概率:
贝叶斯公式具体推导过程也很简单,各位可以自行上网查阅。我们就直接代入数字计算之前的那个问题:已知一个人是独生子女时,他是“80后”或“90后”的概率有多大?
根据贝叶斯定理:
之前已假定:P(某人是独生子女|某人是“80后”或“90后”)=80%,P(独生子女)=30%。此处我们还需要知道P(某人是“80后”或“90后”),即“80后”或“90后”占全体人口的比例,我假定它是20%。那么代入公式,得到:
结果是超过一半。这个结果相当有意思,它与我们的直觉是相符的:即一个人是独生子女的话,我们会认为这个人很可能是“80后”或“90后”。
这个问题等于是问浅绿色部分占浅绿加深绿部分总面积的比例。请对照面积比例与贝叶斯公式,体会贝叶斯定理的含义
让我们再用贝叶斯定理分析一下“三人成虎”这个成语,看看“三人成虎”到底有没有道理。让我们先计算下“一人能不能成虎”。
根据贝叶斯定理,我们需要先确定这样三个概率:
第一,某天街上有老虎时,有人跟你说“街上有老虎”时的概率。因为街上有老虎非常罕见,所以估计大家都会奔走相告,那么这个概率应该是非常高的,就算它是90%,可记为0.9。
第二,某天街上出现老虎的概率。即使在古代,这也是非常罕见的吧,就算它是万分之一。
第三,某天有人跟你说“街上有老虎的概率”。这个问题有点微妙,此处有两种情况:一种情况是街上真有老虎,有人向你报告,但这种情况很罕见。一种情况是街上没有老虎,但有人跟你开玩笑。所以按照全概率公式,这个概率应该是:
P(街上有老虎)×P(有人向你报告|街上有老虎)+
P(街上没有老虎)×P(有人跟你开玩笑|街上没有老虎)
因为街上有老虎的概率很低,所以前一项可以忽略。我们考虑一下有人跟你开玩笑的概率。因为这不是一个很好的玩笑,总体上还是较少发生的,但比街上真有老虎的概率还是会高不少。我就算它的总体概率为1%。
那我们就可以将以上数值代入贝叶斯定理,计算一下,当有一个人说街上有老虎时,街上真有老虎的概率。此时,这个概率等于:
这个数字非常小,说明那个人很可能只是开玩笑,而街上根本没有老虎。但“三人”为什么就“成虎”了呢?如果我们能知道:某天有三个人跟你说街上有老虎的概率,那么我们同样可以根据贝叶斯定理,算出街上真有老虎的概率。
你可能会说,这好算啊,前面不是假设有一个人跟说街上有老虎的概率是1%吗?那么有三个人说街上有老虎的概率就应该是:
结果是百万分之一。假设这个算法是正确的,让我们继续算下去。
此时还需要知道这个概率:P(有三个人说街上有老虎|街上有老虎)。这个概率要精确计算还真不太好算,需要搞清楚:街上到底有多少个人;有多少只老虎。会不会街上真有老虎,没有人看到,但还是有人跟你开玩笑……
笔者只能简化一下,忽略那些极端情况。假设街上的人足够多,老虎也只有一只,上街的人都看到了,而且你的人缘也不是那么差。所以基本上,当街上真有老虎时,有三个人向你报告的概率比只有一个人向你报告的概率少不了多少,我就假设它是80%,可记为0.8。
如此代入贝叶斯公式的话,计算:
这个数字远大于1,所以肯定是哪里出问题了。问题就在于,之前在估计有人向你报告街上有老虎的概率时,忽略了街上真有老虎的情况。但是,当有三个人向你报告街上有老虎时,我们就不能忽略街上真有老虎的概率,因为三个人同时开相同玩笑的概率太低了。
确切的算法,按照全概率公式,我们实际要计算的是,街上没有老虎时,有三个人同时向你开玩笑的概率,加上街上有一只老虎,有三个人同时向你报告的概率。前者的概率确实是百万分之一,后者是80%。
又因为街上有老虎的概率是一万分之一,那么,总体上有三个人向你报告街上有老虎的概率是:
此时将其代入贝叶斯公式:
哇,贝叶斯公式完美诠释了“三人成虎”这个典故的含义!我们可以从公式中稍微分析“三人成虎”时,街上真有老虎的概率为什么会这么大,而“一人”就成不了“虎”。
首先,这个概率与“街上有老虎”的概率成正比,这是比较容易理解的。
其次,它与“街上真有老虎时,有人向你报告有老虎”的概率成正比。这个概率越大,说明“有老虎”与“有人向你报告”,这两个事件之间有越大的正相关。
最后,最关键的一点是,它与“有三个人向你报告有老虎”的事件概率成反比。也就是,“有三个人向你报告有老虎”的情况越不会发生,则当其发生时,表示街上真有老虎的可能性越大。换句话说,如果一件事能成为另一件事的证据,则这个证据越罕见,则说明这个证据越有效,另一个事件越可能为真实。
正是因为三个人同时与你开玩笑说街上有老虎的可能性太低了,所以只能说明街上真有老虎。而如果有三个人在社交媒体上说街上有老虎,我肯定还是不信的。因为社交媒体上这类情形太常见了,很多人也只是转发消息。所以,社交媒体上三个人成不了虎。真要“成虎”,也许要千人以上。但是有三个互不认识的人当面向你说街上有老虎,就可信多了。
虽然贝叶斯定理在“三人成虎”的例子中是很符合直觉的,但在有些例子中它却反直觉。以病毒检测问题做个例子。
现在我们诊断一个人是否感染病毒的最直接证据就是做检测。现在假设某种检测试剂,其准确率达到90%,意思是:如果你感染了病毒,这种试剂检测结果有90%的概率为阳性,另有10%会得到阴性结果,术语叫“假阴性”。
除此以外,这种试剂对健康者的检测准确率也是90%,意思是:如果你没有感染病毒,这种试剂检测结果有90%的概率为阴性,另有10%的概率出错,结果为阳性,称为“假阳性”。
现在的问题是,如果你的检测结果为阳性,你真的感染病毒的概率是多少?你的第一感觉是:这个试剂准确率相当高啊,如果我是阳性,那我就基本肯定感染了啊!先别急,让我们还是按照贝叶斯公式算一算。
按公式:
这里我们发现需要估算两个概率,一个是一般人群中感染病毒的概率。这个数据在不同的地方差别很大,我们就以1%为例。
检测为阳性的概率,按照全概率公式,是1%的真感染,乘以90%的准确率,加上99%的未感染,乘以10%的错误率:
这就是说,当检测结果是阳性时,有超过90%的概率是假阳性,这是不是反直觉?从计算过程中看出,这个结果的反直觉原因在于,我们假设这个病毒的一般感染率是1%,这仍然是一个比较小的数值,以至于检测结果为阳性时,这个证据并不能很好地证明感染病毒这个事实。
所以,我们经常需要反复检测来确认是否真的感染。请你计算一下,如果三次检测结果都是阳性,你真的感染病毒的概率是多少?
当然,在现实中,因为疑似病例中的感染率很高,有时可达80%~90%,此时假阳性的概率就大大降低了,你可以算算此时假阳性在疑似病例中的概率。
最后,还可以做个有意思的计算,还是基于以上数据,如果一个人的检测结果是阴性,其假阴性的概率是多少,也就是漏检的概率是多少?
直接按公式:
看到结果,你大概可以长出一口气,原来阴性结果还是很可信的(因为大多数人没有被感染)。
以上简单聊了贝叶斯定理,其内容其实很好记。两个事件如果相关,那么考虑以下概率:两个事件作为独立事件的概率;两个事件互为对方前提的条件概率。
当知道这4个概率中的3个概率值时,你可以计算出另一个。
贝叶斯定理也可以用来解释生活中的许多直觉现象,比如“三人成虎”,但他有时也会产生很多反直觉的结果。“凡是惊人的事实,必有惊人的原因”,这句名言也是我经常用来判断某件事真假的一个利器,希望读者能好好使用。
思考题
当一次检测假阳性概率为91.7%时,3次检测均为阳性时,假阳性的概率是多少?
当实际病毒感染率达到80%,某次检测为阳性时,确实感染病毒的概率是多少?