归纳与统计:频率论者范式详析

  • 贝叶斯系统要求规定一个先验概率,以便进行计算。而与贝叶斯分析不同,频率论者分析不要求任何先决的输入条件,这样,看起来就让人感觉客观公正不偏不倚。[P 198]

  • 我们需要准确和严格地理解,频率论者的假说检测程序,究竟是如何提出问题和解决问题的。严格的说,I 类错误率、II 类错误率,还有p值,究竟是什么意思。[P 198]

  • 频率论者假说检测的含义[P 198]

    • 频率论者假说检测的结果按照统计学的方式加以表达,诸如:I 类错误、II 错误、还有p值。下面考虑一个具体的实例会有助于加深理解,其中I 类错误和II 类错误,与以前的定义是一致的:
      接受91293
      拒绝437
      955100
      • 得出这样的结果需要进行两次检测
      • 首先,对一个没有问题的零位假说,通过诊断检测,予以接受或拒绝
      • 然后,通过确定性的检测确定该零位假说,是真还是假
      • 零位假说可能为真也可能为假,共存在四种可能的结果,计数如上图。
      • I  类错误概率a就是P(拒绝|真)=4/95≈0.0421
      • II 类错误概率β就是P(接受|假)=2/5=0.4
      • 能动率(Power,拒绝假的比率)为1-β=0.6
      • A类型错误率A就是P(真|拒绝)=4/7≈0.5714
      • B类型错误率B就是P(假|接受)=2/93≈0.0215
      • 类型I 和类型II 类的错误率是给定假说,数据的概率,P(D|H)
      • 类型A和类型B类的错误率是给定数据,假说的概率,P(H|D)
    • 对于这个例子,I 类错误率是什么,即:拒绝一个真的零位假说的概率,有三种等价的含义
      • 该I 类错误的数值除以该列累加的总计值
      • 该I 类错误的数值除以该行累加的总计值
      • 该I 类错误的数值除以全体的总计值
    • 三种含义的解释
      • 第一种结果:I 类错误率是条件概率,是所有为真的假说中,被拒绝的零位假说的条件概率,也就是4/95,得出近似值0.0421;
      • 第二种结果:I 类错误率是条件概率,是所有被拒绝的假说中,零位假说为真的条件概率,也就是4/7,得出近似值0.5714;
      • 第三种结果:I 类错误率是概率,零位假说被拒绝了而且这个假说是真的概率,也就是4/100,得出概率值为0.040.
    • 正式的形式化的I 类错误率的概率定义,是第一种。
    • 类似的,II 类错误率的确切定义,是所有为假的假说中,被接受的的零位假说的条件概率。
      • I 类错误率关注的是从零位假说为真的事例中排除的样本
      • II 类错误率关注的是从零位假说为假的事例中排除的样本
      • I 类错误率就是a=P(拒绝零位假说|零位假说为真)
      • II 类错误率就是β=P(接受零位假说|零位假说为假)
      • 统计检测的能动率就是1-β=P(拒绝零位假说|零位假说为假)
      • p值作为一个实验之后的I 类错误率,它具有(接受|假说)的形式,但必须累加后才能得出
  • A型和B型错误率[P 199]

    • 定义
      • A错误率:P(零位假说为真|拒绝)
      • B错误率:P(零位假说为假|接受)
    • I 类错误率 VS A错误率
      • 所涉及的是同样的错误事件:拒绝为真的零位假说
      • 但关注的是不同的错误率:I 类:给定零位假说为真,加以拒绝;A类:在拒绝的前提下,其中为真的零位假说
    • II 类错误率 VS B错误率
      • 所涉及的是同样的错误事件:接受为假的零位假说
      • 但关注的是不同的错误率:II 类:给定零位假说为假,加以接受;B类:在接受的前提下,其中为假的零位假说
    • 实际应用中,经常被混同,从而导致根本性的混乱。当人们实际需要的是类型A和类型B的错误率时,往往误以为他们想要的是I 类和II 类错误率。
  • 频率论者假说检测的“贝叶斯方式”误读[P 200]

    • 关于一个假说的检测,一份贝叶斯的报告是以P(H|D)的形式表达,而一份频率论者的报告是以P(D|H)的形式表达。而人们对所有的统计报告,总是局限于按照贝叶斯的含义加以理解或解释,特别是P值。
    • 错误示例:“当学生们获得一个具有统计学意义的样本,达到5%的程序,他们就能得出结论,他们能够以95%的置信度宣布另外一个假说为真。”
    • 为了达到一个假说为真的概率上的结论,必须规定一个假说集合,而且必须规定假说的先验概率。从这两方面来看,在谈到假说为真的概率时,频率论者范式的说法并不恰当。换句话说,贝叶斯范式的证据承载着假说的数据,而频率论者范式的证据并不如此。
      • 首先,贝叶斯分析具有两个相互竞争的假说Hw和Hb,而频率论者分析只有一个Hw作为零位假说。一匹马单独地参加一次赛马,它即不可能击败任何对手,也不可能被任何的对手所击败。
      • 其次,p值并不是一种实验证据的测量手段,既不能肯定一个零位假说,也不能否定一个零位假说。p值回答这样一个问题:假定零位假说为真,在这个实验中,观察一个结果的概率,使其达到极端,或者比实际观察到的更极端,那种情况下的概率是什么?
      • 对p值的错误理解是这样的:把整体所具有的性质假想为,其中的一个部分也具有这种性质(反了吧??)。
  • 奇异影响的停止规则[P 201]

    • 不管出于什么理由所有实验都必须适时停止。但是贝叶斯范式和频率论者范式各自持有差异巨大的见解。
    • 贝叶斯范式的停止规则取决于边际值M的取值
    • 频率论者范式的停止规则却不明确,大理石球二次试验的停止规则是,达到更小一些的也就是更有效的p值,0.00096,拒绝零位假说Hw。
    • p值取决于实验所获得的数据,还取决于采用什么样的停止规则。
    • 频率论者分析依赖于停止规则,还引起另外一个相关的问题,在实验进行中需要定期的对数据监控和分析,这样会使实验进程拉长。
    • 运用p值还有一个问题,它可能对证据的力度,严重地估计过度或严重的估计不足。
    • p值通常过高估计了证据的力度,绝大多数依赖p值的决策的证据力度,比我们设想的要软弱的多,究其原因,就是由于频率论者分析理论的误导所致。
  • 对于统计学软件的建议:

    • 频率论者范式绝对需要具体规定停止规则,软件中要加上这样一条输入,作为运行的前提
    • 还要加上注释:p值是一个极其极端结果的概率,比具体的实验结果还要极端,是在零件假说为真的假设之下进行的。它不是一种实验证据力度的测度,它不是一种支持或反对零位假说或任何其他假说的实验证据力度的测度。对于数据需要用以证明假说的情况,人们必须规定假说的先验概率,并且执行贝叶斯计算。