研究方法论

这里是内容未经格式化文章摘要。找到所需要的文章后,请点击标题查看原文。
  • 科学方法实践

    这是一本关于科学方法的书籍。

  • 归纳与统计:概率

    * 概率非常重要,在很多情况下,科学所能得出的最好答案,只是或多或少带有可能性的结论,而非绝对可靠,确定无疑。[P 151] * 运用概率出现错误是最为普通的一类错误,即使经过科学期刊审查的专业文章也难免有错。[P 151] * 概率有两种主要的概念,一种属于事件,另一种属于信念[P 151] * 前者指一种客观的或物理的概率,某种事件出现的机会。比如:抛掷一个公平的硬币,出现正面的概率为0.5. * 后者是主观的,或者是个人的、认识能力的概率,就是依据证据所保证的人们对一个命题相信的程度。例如:给出了今天的天气预报,人们对“今天有雨”可能按照概率90%的程度,相信其正确。 * 当然,个人主观的概率和客观概率往往交织在一起,特别是人的信念通常所关心的就是物质世界中的事件。

  • 归纳与统计:排列、组合

    在讲述概率理论的时候,不能不概要的介绍一下最基本的组合论。很多概率问题通过计算出现某一事件的数目,就能得到解决。 [h3]计数: [/h3] 对于R个事件,第一个事件有N1个可能的结果,第二个事件有N2个可能的结果,以此类推,第R个事件有个NR个可能的结果,总是就有N1 X N2 X …X NR个可能的结果。 例如:规定使用连续三个数目字随后三个字母作为汽车牌照的号码,那么可以构成多少种不同的牌照号码?其答案是:10 X 10 X 10 X 26 X 26 X 26=17576000种 [h3]排列: [/h3] 例如,有一个集合,包含三个字母A、B、C,全部可能的所有排列就是ABC、ACB、BAC、BCA、CAB和CBA,一共是6种不同的方式。 因为第一次选择,有三种可能,第二次选择有两种,第三次只有一种。所以总的就是3 X 2 X 1=6种(第一次选择时,可以在A的位置放置A/B/C三种,选择一个之后,在B的位置只能选择A/B/C-1=2种,第三次就只有A/B/C-2=1种可能了)。 对于N个对象,普遍的规则就是[color=red]N X (N-1) X (N-2) X … X 3 X 2 X 1[/color] 个不同的排列。这个计算式叫"[color=red]N阶乘[/color] ",通常以符号[color=red]N![/color] 表示。另外有一个专门的规定,0!=1。 有的情况下,集合中的成员不是唯一的,比如一个集合中的成员为:A、A、B和C,其中有两个字母A,是同样 的。 作为普遍情况,N个对象,其中有N1个是同样的,另外还有N2个是同样的,以此类推,还有NR个是同样的,那么,其排列总数为:N! / (N1! X N2! X …X NR!)。 例如,在A、A、B和C的集合中,排列数为:4! / (2! X 1! X 1!)=24 / 2=12。 [h3]组合:[/h3] 组合是一个特殊的数,查看能分成若干个组的数目,每个组中间有不同的成员或结果,成员在其中的次序无所谓。 普遍的规则,从N个对象中,每次抽取R个,其组合数为:[color=red]N! / ((N - R)! X R!)[/color] 。对于R≤N,其组合数以符号:[tex]\left( N \\ R \right)[/tex]表示,意思就是从N个对象中每次选取R个所得到的组合数。 例如:从5个项目A、B、C、D和E中选取3个。第一次选择,有5种可能,第二次有4种可能,第三次,只有3种可能,以此类推,结果得出5 X 4 X 3 X 2 X 1=120种排列,120/((5-3)! X 3!)=120/12=10。 另一个例子:给出一枚公平的硬币,投掷100次,得出45个正面,55个反面的概率是多少? 可能的结果总数为2[sup]100[/sup],所有的结果机会都是均等的。 在投掷100次中,出现45个正面的组合数为:[tex]\left( 100 \\ 45 \right)[/tex]。 将组合数计算出来以后除以可能的结果总数:[tex]\left( 100 \\ 45 \right)/2^{100}[/tex] 就可得出概率值,0.048474。 所以出现所说的结果的机会大约是5%。 [h3]引申:[/h3] 组合是特殊的排列 首先要将多余的数字去掉:[color=red] (N - R)! [/color] 再将重复的数字去掉:[color=red] R! [/color] 所以最后的公式是:排列数消去多余的数,再消去重复的数字:[color=red]N! / ((N - R)! X R!)[/color]

  • 归纳与统计:频率论者范式详析

    * 贝叶斯系统要求规定一个先验概率,以便进行计算。而与贝叶斯分析不同,频率论者分析不要求任何先决的输入条件,这样,看起来就让人感觉客观公正不偏不倚。[P 198] * 我们需要准确和严格地理解,频率论者的假说检测程序,究竟是如何提出问题和解决问题的。严格的说,I 类错误率、II 类错误率,还有p值,究竟是什么意思。[P 198]

  • 归纳与统计:频率论者范式

    * “频率论者范式”试图对“贝叶斯范式”作出改进,特别是,前者寻求消除贝叶斯范式中的先验设置——因为对科学家来说,寻找附加的先验信息,几乎是一种负担。 * 严格的给出一个已知的先验值,贝叶斯方法可以顺理成章地运用——但要害问题在于:常常无法得知先验值 * 频率论者范式强调的是:证伪(排斥、拒绝),而不是接受或者证明假说。

  • 归纳与统计:贝叶斯决策

    * 推理与决策的关系:[P 190] * 推理追求的是真信念; * 决策追求的是恰当和适宜的行动 * 信念为决策提供信息,并且影响到所采取的行动,使决策问题构成了推理的一个从属问题。 * 形式化的正规决策:[P 190] * 提供一个逻辑框架,将每一条推理都明确地表达出来,将复杂的问题分解成易于处理和控制的若干部分,以消除个人推理中不协调不连贯不一致的地方。 * 将各种意见和见解条理化明晰化,加速与决策有关的其他人员清晰地交流,并且促成有序的和创造性的解决方案。 * 形式化的正规决策,是对非形式化的普通决策的一种补充,而非替代。[P 190]

  • 归纳与统计:大理石球实验

    * 贝叶斯定理:是从概率公理中推导出来的特别重要的定理,它说明,后验概率等于或然率乘以先验概率。[P 213] * 大理石球实验:问题[P 179] * 步骤 * 投掷一枚公平硬币 * 如果是正面,向坛子里放1个白球3个蓝球; * 如果是反面,向坛子里放3个白球1个蓝球 * 假说 * H[sub]b[/sub]:1个白球和3个蓝球(wbbb) * H[sub]w[/sub]:3个白球和1个蓝球(wwwb) * 目的
    确定哪一个假说,Hb还是Hw,可能为真 * 实验
    把球充分混合后,从中取出一个,观察这个球的颜色,然后重新放回。只要需要,该程序可反复进行。 * 停止规则
    当一个假说的后验概率达到了0.999,即告停止。

  • 归纳与统计:概率计算的常见错误

    * 概率推理中最常见的两种错误:1、忽略先验;2、颠倒的条件概率。 * 忽略先验概率 * 原问题: * 通过测血压检查一种罕见的疾病,其发病机会为每100000人中,会有一个患者。这种测试相当可靠;如果一个人患了病,它能够正确诊断出该病的概率为0.95,如果一个人没有患病,错误的诊断出该病的概率为0.005。 * 问:如果经过测试,得出结果该人患了这种病,那么作出正确诊断的概率是多少。 * 重新整理: * 某种病的发病机会为每100000人中1人。 * 现有一种方法可以检测此病。 * 对患此病的人,检测出有病的概率为95% * 对没病的人,检测出有病的概率为0.5% * 问:现检测出一人有病,作出正确诊断的概率是多少? * 重新整理后问题就简单多了 * 这个人如果只是个有病的人,那么,正确诊断的概率就是95%。 * 但问题是这个人即可能是有病的人,也可能是没病的人 * 所以,正确的计算结果是大约2%,计算过程如下: * [tex]\frac{{0.95}\times{0.00001}}{{0.95}\times{0.00001}+{0.99999}\times{0.005}}[/tex] * 也就是有病人的概率(或然率0.95乘以先验概率0.00001),除以有病人的概率与没病人概率的和。 * 颠倒的条件概率 * 原问题 * 假定生男孩与生女孩的概率相等 * 假定史密斯夫妇告诉你,他们有两个孩子,其中有一个是女孩 * 问:另一个是女孩的概率是多少? * 说明 * 这个问题比较特殊,不同的描述语会可能会造成不同的误解,请注意下面两者的区别 * A 已经生了一个女孩,再生一个女孩的机率 * B 两个孩子中一个是女孩,另一个也是女孩的机率 * A的答案是50%;B的答案是33%。 * 两个孩子共有四种排列情况:2[sup]2[/sup]=4,分别是GG、GB、BB、BG。 * A问题因为第一个已经是G了,排除掉BB和BG后,只剩下GG和GB两种可能,所以答案是50%。 * B问题因为只说明一个是G,所以只能排除BB,剩下GG、GB、BG三种可能,所以答案是33%。 * 提示 * “当”是一个很容易出现问题的词,P(X当Y)会引出三种不同的理解:P(X|Y)、P(Y|X)、P(X∩Y) * 每一种的计算结果都不一样

  • 归纳与统计:贝叶斯定理

    [quote]哈哈,加入了最新的TEX公式输入功能,清楚多了,也养眼多了。[/quote] 这个非同寻常的重要定理,只不过是“从经验中进行学习的主要规则”,它给我们提供了“一个符合普通感知和普通常识的形式化规则,在我们运用经验(或数据)的过程中,它能给予我们指导,如何作出选择假说的决定。“ * 简单形式: * P(H|D) ∝ P(D|H)XP(H) * 或者:后验 ∝ 或然率 X 先验 (注:符号“∝”意为“成比例于,与……成比例”) * 三个组成部分的基本含义: * 先验:是“先验概率”的简称。是一个初始的概率,命题为真的初始概率或一个事件发生的初始概率,估算先验是为了收集某些特定的数据或证据。 * 或然率:或然率概括了数据对假说概率的影响。低的或然率表示低的确定性,反之则高。 * 后验:是“后验概率”的简称。还可以使用“当前的”。在任何情况下,“后验”一词都意味着,在或然率所考虑的情况下,使用过新的信息之后的结果。 * 引申:当前概率“成比例与”初始概率 X 或然率(哈哈,更通俗,更好记) * “成比例”与“等于”的区别:如同百倍放大镜的刻度值要乘以0.87后才“等于”实际值,但它的值却与际值的变化是“成比例”的。去掉那个参数,就是“成比例”,加上那个参数,就是“等于”。

  • L:归纳逻辑和统计学

    归纳逻辑和统计学是PEL模型中的L部分。

  • 完全展开的PEL模型

    > [b]提要:[/b]科学结论来自三个输入项:预设、证据和逻辑 预设 + 证据 + 逻辑 → 结论 [b]预设[/b]是一些信念,为了使探讨中的假说赋有意义和真实性,绝对需要的信念。而且,涉及到具体假说,无论其可信任程度如何,这种信念是完全没有差别的。科学要求几项普通感知的预设,包括物质世界存在以及我们的感官知觉是普遍可靠的。这些预设还可以起到另外一种作用,把那些胡诌的想法从严肃认真切实可行的假说集合中排除出去。 [code2] [b]科学预设的广义定义:[/b] 一个科学预设是这样一个信念,它是一个普通的现实主义者科学实践所必须的,如果无论任何的证据或推理都不能证明这个信念,然而出于普通感知和信仰,必须接受,这样的信念就是科学预设。 常用的科学预设有:物质世界存在,人类的感知能力普遍可靠。 [/code2]

  • 演绎法和归纳法的区别示例

    [quote][b]提要:[/b]概率是非确定性的演绎,而统计学是非确定性的归纳(汗一个,归纳本就是或然性的)。 [/quote] * 为了便于叙述,“公平的硬币”给出正面的概率为0.5,给出反面的概率为0.5;“不公平的硬币”给出正面的概率是0.6,给出反面的概率是0.4。 * 问题1:给定硬币是公平的硬币。投掷100次,出现45次正面,55次反面的概率是多少? * 问题2:给定投掷100次,出现45次正面,55次反面。该硬币是公平硬币的概率是多少? 粗略的看一下,两者颇为相似。但实际上他们有着根本区别,推理的方向恰恰相反。问题1是演绎,是概率问题;问题2是归纳,是统计学的问题。

  • 归纳法为何无处不在?

    因为尽管表面上看来,数据和实验都很严格,可是科学所研究的几乎都是没有办法直接观察的,或者说得更具体一些,它所涉及的事物和时间都超出能够实际观察的范围。 例如:化学家报告,铁在1535度熔化。 显然,这个报告是基于实际的观察,铁在特定时间的特定样品。然而,现在是把它作为一件普遍的事实,应用于在任何地点的任何的铁;严格的说,这几乎是无限多的事例,任何人都不可能一一加以观察。自然,科学家也不可能把从古到今全宇宙的铁都观察一遍。 没有归纳法,也就没有任何一丁点的普遍结论,科学也就随之消亡了。

  • 归纳与统计:范式和问题

    * 应当让科学家认清的事情就是,彻底弄清楚你所要研究的问题,然后选择一个适当的统计范式 * 统计学的作用在于,当研究目标确定后,可以想办法设计出有效的实验,以便收集数据,而且通过强有力的公式化的推理过程,分析这些数据 * 而最原始的和最根本的实质性工作,如何提出有意义有意思的问题,仍然是科学家自己的职责。 * 贝叶斯范式和频率论者范式都具有极端的客观性,都包括三个主要的组成部分:假说、数据和推理过程。两者的不同主要在于提出问题的方式和所提出的问题不同。

  • 贝叶斯与频率论者范式的核心之别

    * 贝叶斯模式的问题是:
    给定数据和任何的先验知识,一个假说为真的概率是什么? * 频率论者模式的基本的思想是:
    一个错误率低的可靠过程就是一件适合的工具。 * 贝叶斯范式的重点放在假说上,而频率论者的重点放在过程

  • 现代软件技术的灵魂—贝叶斯定理

    生活在18世纪的托马斯-贝叶斯(Thomas Bayes)生前是位受人尊敬英格兰长老会牧师,为了证明上帝的存在,他发明了概率统计学原理,遗憾的是,他的这一美好愿望至死也未能实现。不过,200 多年后的今天,他的这一理论却成了21世纪计算机软件的理论基础,尤其是在数据管理软件领域。

    例如,即将问世的Windows XP操作系统就可以看到贝叶斯定理的身影,其智能纠错系统就是建立在贝叶斯定理的基础上的;另外,该定理也是微软公司“以互联网为中心”的.NET战略的理论基石。