研究方法论

L:归纳逻辑和统计学

归纳逻辑和统计学是PEL模型中的L部分。

科学方法实践

这是一本关于科学方法的书籍。

贝叶斯与频率论者范式的核心之别

  • 贝叶斯模式的问题是: 给定数据和任何的先验知识,一个假说为真的概率是什么?

  • 频率论者模式的基本的思想是: 一个错误率低的可靠过程就是一件适合的工具。

  • 贝叶斯范式的重点放在假说上,而频率论者的重点放在过程

归纳与统计:范式和问题

  • 应当让科学家认清的事情就是,彻底弄清楚你所要研究的问题,然后选择一个适当的统计范式

    • 统计学的作用在于,当研究目标确定后,可以想办法设计出有效的实验,以便收集数据,而且通过强有力的公式化的推理过程,分析这些数据
    • 而最原始的和最根本的实质性工作,如何提出有意义有意思的问题,仍然是科学家自己的职责。
  • 贝叶斯范式和频率论者范式都具有极端的客观性,都包括三个主要的组成部分:假说、数据和推理过程。两者的不同主要在于提出问题的方式和所提出的问题不同。

归纳与统计:频率论者范式详析

  • 贝叶斯系统要求规定一个先验概率,以便进行计算。而与贝叶斯分析不同,频率论者分析不要求任何先决的输入条件,这样,看起来就让人感觉客观公正不偏不倚。[P 198]

  • 我们需要准确和严格地理解,频率论者的假说检测程序,究竟是如何提出问题和解决问题的。严格的说,I 类错误率、II 类错误率,还有p值,究竟是什么意思。[P 198]

归纳与统计:频率论者范式

  • “频率论者范式”试图对“贝叶斯范式”作出改进,特别是,前者寻求消除贝叶斯范式中的先验设置——因为对科学家来说,寻找附加的先验信息,几乎是一种负担。

  • 严格的给出一个已知的先验值,贝叶斯方法可以顺理成章地运用——但要害问题在于:常常无法得知先验值

  • 频率论者范式强调的是:证伪(排斥、拒绝),而不是接受或者证明假说。

归纳与统计:贝叶斯决策

  • 推理与决策的关系:[P 190]

    • 推理追求的是真信念;
    • 决策追求的是恰当和适宜的行动
    • 信念为决策提供信息,并且影响到所采取的行动,使决策问题构成了推理的一个从属问题。
  • 形式化的正规决策:[P 190]

    • 提供一个逻辑框架,将每一条推理都明确地表达出来,将复杂的问题分解成易于处理和控制的若干部分,以消除个人推理中不协调不连贯不一致的地方。
    • 将各种意见和见解条理化明晰化,加速与决策有关的其他人员清晰地交流,并且促成有序的和创造性的解决方案。
  • 形式化的正规决策,是对非形式化的普通决策的一种补充,而非替代。[P 190]

归纳与统计:大理石球实验

  • 贝叶斯定理:是从概率公理中推导出来的特别重要的定理,它说明,后验概率等于或然率乘以先验概率。[P 213]

  • 大理石球实验:问题[P 179]

    • 步骤
      • 投掷一枚公平硬币
      • 如果是正面,向坛子里放1个白球3个蓝球;
      • 如果是反面,向坛子里放3个白球1个蓝球
    • 假说
      • Hb:1个白球和3个蓝球(wbbb)
      • Hw:3个白球和1个蓝球(wwwb)
    • 目的
      确定哪一个假说,Hb还是Hw,可能为真
    • 实验
      把球充分混合后,从中取出一个,观察这个球的颜色,然后重新放回。只要需要,该程序可反复进行。
    • 停止规则
      当一个假说的后验概率达到了0.999,即告停止。

归纳与统计:概率计算的常见错误

  • 概率推理中最常见的两种错误:1、忽略先验;2、颠倒的条件概率。

  • 忽略先验概率

    • 原问题:
      • 通过测血压检查一种罕见的疾病,其发病机会为每100000人中,会有一个患者。这种测试相当可靠;如果一个人患了病,它能够正确诊断出该病的概率为0.95,如果一个人没有患病,错误的诊断出该病的概率为0.005。
      • 问:如果经过测试,得出结果该人患了这种病,那么作出正确诊断的概率是多少。
    • 重新整理:
      • 某种病的发病机会为每100000人中1人。
      • 现有一种方法可以检测此病。
      • 对患此病的人,检测出有病的概率为95%
      • 对没病的人,检测出有病的概率为0.5%
      • 问:现检测出一人有病,作出正确诊断的概率是多少?
    • 重新整理后问题就简单多了
      • 这个人如果只是个有病的人,那么,正确诊断的概率就是95%。
      • 但问题是这个人即可能是有病的人,也可能是没病的人
      • 所以,正确的计算结果是大约2%,计算过程如下:
      • 也就是有病人的概率(或然率0.95乘以先验概率0.00001),除以有病人的概率与没病人概率的和。
  • 颠倒的条件概率

    • 原问题
      • 假定生男孩与生女孩的概率相等
      • 假定史密斯夫妇告诉你,他们有两个孩子,其中有一个是女孩
      • 问:另一个是女孩的概率是多少?
    • 说明
      • 这个问题比较特殊,不同的描述语会可能会造成不同的误解,请注意下面两者的区别
        • A 已经生了一个女孩,再生一个女孩的机率
        • B 两个孩子中一个是女孩,另一个也是女孩的机率
      • A的答案是50%;B的答案是33%。
      • 两个孩子共有四种排列情况:22=4,分别是GG、GB、BB、BG。
      • A问题因为第一个已经是G了,排除掉BB和BG后,只剩下GG和GB两种可能,所以答案是50%。
      • B问题因为只说明一个是G,所以只能排除BB,剩下GG、GB、BG三种可能,所以答案是33%。
    • 提示
      • “当”是一个很容易出现问题的词,P(X当Y)会引出三种不同的理解:P(X|Y)、P(Y|X)、P(X∩Y)
      • 每一种的计算结果都不一样

归纳与统计:排列、组合

在讲述概率理论的时候,不能不概要的介绍一下最基本的组合论。很多概率问题通过计算出现某一事件的数目,就能得到解决。

计数:

对于R个事件,第一个事件有N1个可能的结果,第二个事件有N2个可能的结果,以此类推,第R个事件有个NR个可能的结果,总是就有N1 X N2 X …X NR个可能的结果。

例如:规定使用连续三个数目字随后三个字母作为汽车牌照的号码,那么可以构成多少种不同的牌照号码?其答案是:10 X 10 X 10 X 26 X 26 X 26=17576000种

排列:

例如,有一个集合,包含三个字母A、B、C,全部可能的所有排列就是ABC、ACB、BAC、BCA、CAB和CBA,一共是6种不同的方式。

因为第一次选择,有三种可能,第二次选择有两种,第三次只有一种。所以总的就是3 X 2 X 1=6种(第一次选择时,可以在A的位置放置A/B/C三种,选择一个之后,在B的位置只能选择A/B/C-1=2种,第三次就只有A/B/C-2=1种可能了)。

对于N个对象,普遍的规则就是N X (N-1) X (N-2) X … X 3 X 2 X 1 个不同的排列。这个计算式叫"N阶乘 ",通常以符号N! 表示。另外有一个专门的规定,0!=1。

有的情况下,集合中的成员不是唯一的,比如一个集合中的成员为:A、A、B和C,其中有两个字母A,是同样 的。

作为普遍情况,N个对象,其中有N1个是同样的,另外还有N2个是同样的,以此类推,还有NR个是同样的,那么,其排列总数为:N! / (N1! X N2! X …X NR!)。

例如,在A、A、B和C的集合中,排列数为:4! / (2! X 1! X 1!)=24 / 2=12。

组合:

组合是一个特殊的数,查看能分成若干个组的数目,每个组中间有不同的成员或结果,成员在其中的次序无所谓。

普遍的规则,从N个对象中,每次抽取R个,其组合数为:N! / ((N - R)! X R!) 。对于R≤N,其组合数以符号:表示,意思就是从N个对象中每次选取R个所得到的组合数。

例如:从5个项目A、B、C、D和E中选取3个。第一次选择,有5种可能,第二次有4种可能,第三次,只有3种可能,以此类推,结果得出5 X 4 X 3 X 2 X 1=120种排列,120/((5-3)! X 3!)=120/12=10。

另一个例子:给出一枚公平的硬币,投掷100次,得出45个正面,55个反面的概率是多少?

可能的结果总数为2100,所有的结果机会都是均等的。

在投掷100次中,出现45个正面的组合数为:

将组合数计算出来以后除以可能的结果总数: 就可得出概率值,0.048474。

所以出现所说的结果的机会大约是5%。

引申:

组合是特殊的排列

首先要将多余的数字去掉: (N - R)!

再将重复的数字去掉: R!

所以最后的公式是:排列数消去多余的数,再消去重复的数字:N! / ((N - R)! X R!)

聚合内容