归纳与统计:大理石球实验

  • 贝叶斯定理:是从概率公理中推导出来的特别重要的定理,它说明,后验概率等于或然率乘以先验概率。[P 213]

  • 大理石球实验:问题[P 179]

    • 步骤
      • 投掷一枚公平硬币
      • 如果是正面,向坛子里放1个白球3个蓝球;
      • 如果是反面,向坛子里放3个白球1个蓝球
    • 假说
      • Hb:1个白球和3个蓝球(wbbb)
      • Hw:3个白球和1个蓝球(wwwb)
    • 目的
      确定哪一个假说,Hb还是Hw,可能为真
    • 实验
      把球充分混合后,从中取出一个,观察这个球的颜色,然后重新放回。只要需要,该程序可反复进行。
    • 停止规则
      当一个假说的后验概率达到了0.999,即告停止。
  • 对这个大理石球问题,采用贝叶斯规则的比例式最为方便:

  • 计算的结果如下:

    • 在这个试验中,第一次抽取的后验结果变成第二次抽取的先验结果。
    • 它说明了一个非常普遍的数据分析特征:当实验的数量越来越大的时候,结果也越来越接近结论。

ID

结果

先验比

或然率

后验概率比

P(HB|D)

颜色

HB累计

HW累计

P(HB)

P(HW)

P(D|HB)

P(D|HW)

P(HB|D)

P(HW|D)

0

(先验)

1

1

1

1

3

3  

1

1

0.50000  

1

1

2

1

1

3

3  

1

3

0.25000  

2

2

2

1

3

3

3  

3

3

0.50000  

3

2

3

3

3

3

3  

3

9

0.25000  

4

3

3

3

9

3

3  

9

9

0.50000  

5

4

3

9

9

3

3  

27

9

0.75000  

6

5

3

27

9

3

3  

81

9

0.90000  

7

6

3

81

9

3

3  

243

9

0.96429  

8

7

3

243

9

3

3  

729

9

0.98780  

9

8

3

729

9

3

3  

2187

9

0.99590  

10

8

4

2187

9

3

3  

2187

27

0.98780  

11

9

4

2187

27

3

3  

6561

27

0.99590  

12

9

5

6561

27

3

3  

6561

81

0.98780  

13

10

5

6561

81

3

3  

19683

81

0.99590  

14

11

5

19683

81

3

3  

59049

81

0.99863  

15

12

5

59049

81

3

3  

177147

81

0.99954

  • 需要注意的几点:
    • 设M是蓝色球数超过白色球数的边际值,那么,M3就意味着抽中蓝色球比抽中白色球多了3次。
    • 那么后验比例值HB:HW就等于3M:1。为了使HB获胜的比例值超过999:1,或者99.9%置信度,需要M=7。
    • 一个实验的平均长度L大约是2X7=14次。关于检测序列概率比的伯努利数是可以获知的。取近似值,L≈2M也算是相当准确了。
  • 引申:
    • 我们要做一个实际,假设或然率的贡献比例为3:1,如果要求99%的置信度,那么就要35=243次(34=81),也即M=5才可以,试验的长度大约为:L≈2M=10+1=11次,也就够了。