第2章 描述统计学I:表格法和图形法

  • 品质型数据汇总

    • 频数分布:是一种数据的表格汇总,表示在几个互不重叠组别中的每一组项目的个数(即频数)。
      • 50次软饮料购买的样本数据中,A出现19次,B出现8次……
    • 相对频数分布和百分数频数分布
      • 相对频数:一组的相对频数是所属级别的项目个数占总数的比例。对一个有n个观测值的数据集,每一组的相对频数=每一组的频数/n
      • 百分数频数:相对频数 X 100
      • 相对频数分布:表示每一组的相对频数数据的表格汇总
      • 百分数频数分布:每一组的百分数频数数据的表格汇总
    • 条形图和饼形图
  • 数量型数据汇总

    • 频数分布:同上节
      • 组数:对数据规定范围而形成的
      • 组宽:较大的组数意味着较小的组宽,反之亦然。
      • 近似的组宽:我们从找出数据的最大值和最小值开始,然后,一旦确定了期望的组数,则:近似组宽=(数据最大值-数据最小值)/组数
      • 组限:上组限是被分布到该组的数据的最小可能性。下组限反之。品质型数据的频率分布不需要规定组限。
      • 组中值:是上组限和上组限的中间值
    • 相对频数分布和百分数频数分布
      • 组的相对频数:对于n个观察值:组的相对频数=组频数/n
      • 组的百分数频数:相对频数 X 100
    • 打点图
      • 没有纵轴
      • 横轴表示观察值的值域
      • 3个点位于横轴刻度的18之上,表明有3次审计时间为18天
    • 直方图
    • 累积分布
      • 累积频数分布表示的是小于或等于每一组上组限的数据项个数,而不是表示每一组的频数。
      • 考虑一个被描述为“小于或等于24”的组。
    • 累积曲线
      • 累积曲线是显示累积分布的一种图形(跟排列图有点相似)
      • 横轴显示数值,纵轴显示累积频数、累积相对频数
    • 注释
      • 开口组是指只有一下组限或上组限的组
      • 累积频数分布的最的一个数据项总等于观察值的总数
  • 探索性数据分析:茎叶显示

    • 例子
    • 5 | 2 5 6 9
    • 6 | 5 6 9 8 2 3 4
    • 7 | 5 7 4 2 3 6 9 1 9 5 4
    • 8 | 5 6 9 3 2 1 4 5 6
    • 9 | 1 2 3 5
    • 左边形成了茎,右边形成了叶。第一行表示52、55、56、59几个数值
    • 与直方图相比的两个主要优点:
      • 易于手绘
      • 在一个组中,它提供了实际的数值
  • 交叉分组表和散点图

    • 交叉分组表
      • 交叉分组表是一种汇总两个变量的方法
      • 例子:300家餐馆取两种数据:餐价、质量等级。例表,纵向是质量等级,横向是餐价分组,中间是符合要求的餐馆数目,两端各有总计。
    • 辛普森悖论
      • 有时我们常常综合两个或两个以上的交叉分组表中的数据生成一处简要的交叉分组表,以显示两个变量的相关性。
      • 在有些情形中,依据从综合的交叉分组表中得出的结论可能与依据未综合数据得出的结论截然相反,这一现象就是著名的“辛普森悖论”
      • 辛普森悖论:
      • a、b两个法官,A、B两种法庭,A法庭不容易出错,B法庭很容易出错,
      • a在A、B两种法庭的出错率都较高,但审案的数量绝大部分在A法庭
      • b在A、B两种法庭的出错率都较低,但审案的数量绝大部分在B法庭
      • 直接累加A+B法庭的审案数量,将得出b的出错数要大于a的错误结论
    • 散点图和趋势线
      • 散点图:是对两个数量变量间的关系的图形表述
      • 趋势线:是显示相关性近似程度的一条直线。
      • 例子:一家厂商寻找广告次数与销售额间的关系
      • 纵轴:销售额
      • 横轴:广告次数
      • 数据:共有1-5次广告,每次有两组销售额数据
      • 最终的关系类型有三种
      • 正相关
      • 没有明显相关
      • 负相关