第2章 描述性统计学

几个基本概念

  • 变量及测量等级
  • 测量可以划分成四个等级:
    • 名称级:用于测量“定类变量”的值,是最低级别的测量等级
    • 顺序级:用于测量“定序变量”的值,是可以按某种特性将观测对象排序的。
    • 间隔级:用于测量“定距变量”的值,这种值之间不但可以比较大小顺序,还可以说明相差多少,即两上个值之间是有实际意义的。
    • 比例级:用于测量“定比率变量”,这是最高的测量级别。
    • 一般情况下,测量级别高的变量可以当作级别低的变量来分析,但反过来一般不可以
    • 定类变量是属于定性型的;定距和定比率变量属于定量型;而定序变量则根据具体情况而定。
  • 统计量
    • 统计量是一个不包含任何未知参数的样本函数
  • 频数表与直方图
  • 频数表和直方图是最常用的定量而直观地整理、描述数据的手段之一
  • 离散变量的情形
    • 用频数表表格和直方图来表示某地区的家庭人口分布
    • 频数表:纵:变量1、2、3、4……横:频数、相对频率(百分比),有效百分比(考虑缺失的数据)、总计
  • 连续变量的情形
    • n=200名成年男子的身高数据
    • 频数表:纵:148-154、154-160、……等若干组;横:组中值、频数、相对频率、累计百分比

分布的中心

  • 众数:一个分布的众数定义为出现次数最多的变量值
  • 中位数:第是第50百分位数点上的值。如果是奇数,就是中间那个,否则,就是中间两个值的均值
  • 平均数:均值
  • 平均数的物理意义:可以看作数据的“平衡点”
  • 均值、中位数和众数的比较
    • 如果X的分布是单峰的对称分布,这时众数、中位数和平均数是一致的
    • 对于一个偏斜的分布,相对于众数,中位数朝长尾巴方向偏离了一些,而均值刚偏离的更远
    • 均值对异常值是较敏感的,而中位数不那么敏感
    • 当分布比较有规则即不存在极端的值时,用均值代表分布的中心比较好,而在有极端值时,则用中位数更合适。众数虽然稳定性差,但有时会有用,比如评选最受欢迎的XXX
  • 几个基本概念
  • 变量及测量等级
  • 测量可以划分成四个等级:
    • 名称级:用于测量“定类变量”的值,是最低级别的测量等级
    • 顺序级:用于测量“定序变量”的值,是可以按某种特性将观测对象排序的。
    • 间隔级:用于测量“定距变量”的值,这种值之间不但可以比较大小顺序,还可以说明相差多少,即两上个值之间是有实际意义的。
    • 比例级:用于测量“定比率变量”,这是最高的测量级别。
    • 一般情况下,测量级别高的变量可以当作级别低的变量来分析,但反过来一般不可以
    • 定类变量是属于定性型的;定距和定比率变量属于定量型;而定序变量则根据具体情况而定。
  • 统计量
    • 统计量是一个不包含任何未知参数的样本函数

频数表与直方图

  • 频数表和直方图是最常用的定量而直观地整理、描述数据的手段之一
  • 离散变量的情形
    • 用频数表表格和直方图来表示某地区的家庭人口分布
    • 频数表:纵:变量1、2、3、4……横:频数、相对频率(百分比),有效百分比(考虑缺失的数据)、总计
  • 连续变量的情形
    • n=200名成年男子的身高数据
    • 频数表:纵:148-154、154-160、……等若干组;横:组中值、频数、相对频率、累计百分比

分布的中心

  • 众数:一个分布的众数定义为出现次数最多的变量值
  • 中位数:第是第50百分位数点上的值。如果是奇数,就是中间那个,否则,就是中间两个值的均值
  • 平均数:均值
  • 平均数的物理意义:可以看作数据的“平衡点”
  • 均值、中位数和众数的比较
    • 如果X的分布是单峰的对称分布,这时众数、中位数和平均数是一致的
    • 对于一个偏斜的分布,相对于众数,中位数朝长尾巴方向偏离了一些,而均值刚偏离的更远
    • 均值对异常值是较敏感的,而中位数不那么敏感
    • 当分布比较有规则即不存在极端的值时,用均值代表分布的中心比较好,而在有极端值时,则用中位数更合适。众数虽然稳定性差,但有时会有用,比如评选最受欢迎的XXX

均值 中位数 众数
适用于定距或定比变量 主要适用于充序变量 主要适用于定类变量
最稳定 较均值的稳定性差 最不稳定
计算时要用到全部数据 只需中间的数据 可最快速求出
受极端值的影响 对极端值不敏感 有时对个别值的变动也很敏感
分组变化时影响不大 分组变化时有些影响 分组变化时影响较大

分布的形状

  • 极差:最大值减最小值
  • 均方差:所有值与均值的平方和,除以样本量
  • 方差:所有值与均值的平方和,除以总数减1
  • 标准差:方差的平方根
  • 四分位数:人们经常需要将数据划分为四部分,每一部分大约包含1/4或25%的观察值。
    • Q1=第一四分位数,或第25百分位数
    • Q2=第二四分位数,或第50百分位数
    • Q3=第三四分位数,或第75百分位数
  • 极差、四分位数差和标准差的比较

标准差 四分位数差 极差
适用于定距或定比变量 主要适用于定序变量 适用于定距或定比变量
最稳定 较标准差的稳定性弱 最不稳定
计算时要用到全部数据 只需要其中两段的数据 只需要两个值,可快速估算
受极端值的影响较大 对极端值不敏感 只对极端值的变化敏感

  • 一般来说,样本均值是对分布中心最普遍的度量,而样本标准并有S则是对分布形状的最常用的度量。有时我们称平均值和方差为样本的一阶矩和二阶矩。
  • 自由度:对于方差,只有n超过1时才能得到它的信息,所以我们只有(n-1)个信息,习惯上,称信息的个数为自由度,因此:一个自由度被均值占用,余下的(n-1)个自由度留给了方差。

利用相对频率进行计算

  • ˉx=∑X(f/n),也就是说,ˉx是所有组中值X的加权之和(与P(D)XP(D|H)类似),加权系数就是对应组的相对频率f/n
  • MSD(均方差)≈∑(X-ˉx)2(f/n),也就是说,组中的所有值与均值的差的平方乘以相对频率的和
  • S2=(n/(n-1))MSD

其他描述分布的统计图和统计量

  • 茎叶图
  • 饼形图
  • 斜度和峰度