文艺地解读贝叶斯定理

小李年方二八,身强力壮。参加单位组织的体检时,被检出 AIDS 呈阳性。这惊雷轰得小李不省人事:自己明明生活检点,从没做过可能感染 AIDS 的不良行为,这闹的是哪出啊!

假设整个人群 AIDS 发病率是 0.08%。这家医院使用的检测方法对已经确诊的 AIDS 病人检测出阳性的概率是 99% (true positive rate),对没有携带 AIDS 病毒的人检测呈阴性的概率是 99% (true negative rate)。聪明如你,帮小李算算他确实携带 AIDS 病毒的概率是多少?

不着急,再想 5 分钟 ......

答案是 7.34%。

一个简单而自然的算法是假设总共有 10000 人,由于 AIDS 发病率是 0.08%,所以总共有 8 个人携带 AIDS 病毒。由于没有携带 AIDS 病毒的人检测呈阴性的概率是 99% ,所以这家医院使用的检测方法有 1% 的概率会导致没有携带 AIDS 病毒的人被检测呈阳性,即 10000 人中总共会有 (10000 - 8) * 1% = 99.92 人实际上没有携带 AIDS 病毒,但检测出了阳性。针对己确诊患病的 8 人中,会有 8 * 99% = 7.92 人检测呈阳性。所以,小李携带 AIDS 病毒的概率是 7.92 / (99.92 + 7.92) = 7.34%。嗯,虽如晴天惊雷,但其实概率也没那么高嘛,特别是小李生活检点,不吸毒的前提下,误诊的概率极大。

wikipedia 上有个专门的条目讨论这种忽视基础概率问题的页面。

贝叶斯定理

贝叶斯定理是关于条件概率的定理,其公式如下:

P(A|B) = P(A) P(B|A) / P(B)

解释一下公式:

  • P(A), P(B) 表示事件 A 和事件 B 的独立发生概率
  • P(A|B) 是个条件概率,表示当事件 B 发生的情况下,事件 A 发生的概率
  • P(B|A) 也是个条件概率,表示当事件 A 发生的情况下,事件 B 发生的概率

我们用贝叶斯定理再算一下小李的患病概率,假设 A 表示携带 AIDS 病毒事件,B 表示检测结果呈阳性事件,那么我们要求解的就是在检测结果呈阳性的情况下的真实患病概率,即 P(A|B)。P(A) 表示患病概率,在我们的例子里是 0.08%。P(B|A) 表示如果一个人己确诊患病,检测呈阳性的概率是多少,从例子里知道 P(B|A) = 99%。P(B) 表示随机一个人被检测呈阳性的概率是多少,这包括两部分的数据,一部分是患病且被检测呈阳性的概率,它的数值是 0.08% * 99%,另一部分没患病但被检测呈阳性的概率,它的数值是 (1 - 0.08%) * (1 - 99%)。根据贝叶斯定理:

P(A|B) = P(A) P(B|A) / P(B) = 0.08% * 99% / ((0.08% * 99%) + (1 - 0.08%) * (1 - 99%)) = 7.34%

看来和我们的土办法算出来的数值是相同的。

解读贝叶斯定理

就象解读这个千疮百孔的世界一样,很多人选择把眼睛闭起来,选择对它视而不见。而一些人选择热爱这个千疮百孔的世界,努力前行,让这个世界变得美好一点点。

文艺地解读贝叶斯定理是可能的。P(A) 是基础概率,每个人刚来到这个世界上时,对这个世界的美好感受都有一个初始值,随着他的不断成长,碰到了事件 B ,而 B 刚好是这个世界美好的一面,比如一个学渣被女神鼓励,然后奋发图强,变成学霸,那么事件 B 的发生无疑会增加这个人对这个世界的美好程度的感知,所以 P(A|B) 增加了。身体发肤,受之父母。有些人的颜值就是比较高,高颜值的你如果是学渣的话,被女神鼓励的概率应该也是会比较高的,不知不觉,你的先天优势让 P(B|A) 更高。

这是对贝叶斯定理最文艺的解读,没有之一。

然并卵。除了看完感觉有道理之外,你还是不理解贝叶斯定理定理的本质。一个事物的本质往往是朴素的,朴素到没有女神,颜值也处在正态分布的正中间。

Bayesian interpretation

维基百科上的这张图包含了简易的推导贝叶斯定理的过程,简洁,朴素。

而从事件发生频率角度解读贝叶斯定理的的另外一张图片,让我们和贝叶斯走得更近。

frequentist interpretation

学点概率,用更朴素的视角去看这个世界。


Post by Joey Huang under ml on 2016-01-06(Wednesday) 23:43. Tags: machine-learning,


Powered by Pelican and Zurb Foundation. Theme by Kenton Hamaluik.