归纳与统计:概率计算的常见错误

  • 概率推理中最常见的两种错误:1、忽略先验;2、颠倒的条件概率。

  • 忽略先验概率

    • 原问题:
      • 通过测血压检查一种罕见的疾病,其发病机会为每100000人中,会有一个患者。这种测试相当可靠;如果一个人患了病,它能够正确诊断出该病的概率为0.95,如果一个人没有患病,错误的诊断出该病的概率为0.005。
      • 问:如果经过测试,得出结果该人患了这种病,那么作出正确诊断的概率是多少。
    • 重新整理:
      • 某种病的发病机会为每100000人中1人。
      • 现有一种方法可以检测此病。
      • 对患此病的人,检测出有病的概率为95%
      • 对没病的人,检测出有病的概率为0.5%
      • 问:现检测出一人有病,作出正确诊断的概率是多少?
    • 重新整理后问题就简单多了
      • 这个人如果只是个有病的人,那么,正确诊断的概率就是95%。
      • 但问题是这个人即可能是有病的人,也可能是没病的人
      • 所以,正确的计算结果是大约2%,计算过程如下:
      • 也就是有病人的概率(或然率0.95乘以先验概率0.00001),除以有病人的概率与没病人概率的和。
  • 颠倒的条件概率

    • 原问题
      • 假定生男孩与生女孩的概率相等
      • 假定史密斯夫妇告诉你,他们有两个孩子,其中有一个是女孩
      • 问:另一个是女孩的概率是多少?
    • 说明
      • 这个问题比较特殊,不同的描述语会可能会造成不同的误解,请注意下面两者的区别
        • A 已经生了一个女孩,再生一个女孩的机率
        • B 两个孩子中一个是女孩,另一个也是女孩的机率
      • A的答案是50%;B的答案是33%。
      • 两个孩子共有四种排列情况:22=4,分别是GG、GB、BB、BG。
      • A问题因为第一个已经是G了,排除掉BB和BG后,只剩下GG和GB两种可能,所以答案是50%。
      • B问题因为只说明一个是G,所以只能排除BB,剩下GG、GB、BG三种可能,所以答案是33%。
    • 提示
      • “当”是一个很容易出现问题的词,P(X当Y)会引出三种不同的理解:P(X|Y)、P(Y|X)、P(X∩Y)
      • 每一种的计算结果都不一样