2.3.2次序统计量的分布续
任给一个次序统计量
,它的密度与总体有如下关系:
证明
法一:考虑
落入 这一事件,它等价于容量为 的样本中有 个小于 ,有一个在区间 ,有 个大于或等于 ,这一共有 种分组的方法,且对于每个特定的分组,其概率为
因此
记
的分布函数和密度函数分别为 ,对上式两边同除 ,并取极限得
法二:记事件,则分布函数为
利用恒等式
得
求导得到密度函数
恒等式的证明
注意到当
时成立,因此只需证明两边求导相等,计算左边导数如下
其中第三个等式利用组合恒等式
进而左右导数相等,恒等式成立.
关于公式
可以直观理解为,将要研究的次序统计量放入无穷小区间,样本取值分为三组:区间左边,区间内和区间右边。区间左边有
个,对应 ,区间右边对应 ,区间内对应 ,再乘上组合数 ,这样的理解能够让我们类似地写出任意有限个次序统计量的联合密度函数,由如下定理给出:
定理对于次序统计量
,其中 ,其联合概率密度函数为
其中
这个公式不需要记忆,如有需要只需将样本取值分为几个区间,由直观理解直接可以写出.
2.3.3极差、样本中位数与分位数
根据次序统计量可以构造出一些有用的统计量,如:
样本极差
样本中位数
其中极差的密度函数为
这一结果可以通过先写出
的联合密度函数,再作变换
进而由随机变量函数的密度变换公式得到.
总体下
分位数定义为
连续型:使得分布函数取值为
的 值.
离散型:使得分布函数在该
处取值小于 ,但对任何大于该 的值,分布函数的取值大于等于
其中中位数也称为下
分位数.
为了定义样本的分位数,我们先约定次序统计量
为样本的 分位数(之所以是 是为了使中位数称为 分位数),进而对于任意 ,我们由线性插值可以得到样本的下分位数,其形式如下:
这个形式也不需要记忆,如果对于一个样本要计算它的
分位数,就先找到两个相邻的次序统计量 使得 ,这样 分位数落于它们之间,进而用线性插值求值.
样本的四分位数和四分位距:
分位数 为样本的下四分位数分位数 为样本的上四分位数
上下四分位数之差
为样本的四分位距
箱线图中把上四分位数+四分位距以及下四分位数-四分位距以外的点视作异常值,其组成包括上边缘--正常值中最大的,下边缘--正常值中最小的,以及上四分位数、下四分位数和中位数,用于对数据进行初步判断.
样本分位数的精确分布比较难求,但统计学家们证明了样本分位数有渐进正态的性质.
定理(只需要了解)设总体的
分位数为 ,且总体的密度函数在 处连续且不为0,则当样本容量 趋于无穷大时,有如下结果:
即
特别地,对于中位数
2.4常用分布与分布族
第一讲的最后已经回顾了概率论中的三连三离分布,下面来介绍数理统计中的重要分布.
分布:
记作
,其中 为形状参数, 为尺度参数.( ),特别地,为标准分布.对于一般的 ,其分布函数可以通过标准分布来得到:
分布的阶矩
类似可求负指数阶矩
分布的期望和方差
分布矩母函数
分布特征函数
下面给出
分布关于形状参数的可加性与关于尺度参数的伸缩性定理:
可加性定理
设随机变量
相互独立,且 ,则
伸缩性定理
设
,则
定理证明运用特征函数即可,定理本身更为重要!
关于
分布需要掌握以下几个点:概率密度函数矩、矩母函数、可加性和伸缩性即指数分布 ; 即爱尔兰分布; 即为 .