统计与推理(2):置信区间
- 统计与推理(1):描述性统计
- 统计与推理(2):置信区间
- 统计与推理(3):KTV里的骰子游戏
我们宿舍门背后挂了一块飞镖板,宅得无聊了几个人还可以暴力一下(门上面已经有好多脱靶扎出来的小眼了,不要告诉宿管诶)。由于小时候我家也有一块,所以我有那么一点点的基础,从气氛上来说我比舍友的准度要高那么一些。但是,这个结果到底是我们之间的水平存在客观差距,还是他们的运气比我差了那么一点呢?
相信很多时候大家都会碰到这样的问题,概括起来说就是:对于两份样本求平均数,一般不会完全相等的,那我们如何得知它们所在的两个总体的均数本身就有差异,还是由于抽样的误差所导致的呢?或者类似的,对于一份样本和一个事先假设的均数,我们如何判定这份样本所在的总体的均数和我们的假设相一致?
下面先讨论单样本的情况。既然我们认为样本的均数不能代表总体的均数,主要是因为抽样会有误差,很多情况不会恰好等于总体的均数。那么我们不妨换一个角度,从样本的均数出发,估计出总体的均数大概会出现的范围而不是其确切的值。这个范围我们就称作置信区间(Confidential Interval)。
由于我们相信样本均数和总体均数之差是符合无偏分布的——也就是说样本均数减去总体均数得到的差是正数或者负数的情况是一样多的,所以这个从样本估计出来的区间应该是“以样本均数为中心向两边等距散开”的尿性。于是我们只要估计出这个区间的半长就好。说来轻松,其实这个不是一件容易的事情。下面我们先引进几个概念,再依靠他们计算出区间半长。这些概念的原理比较深奥,要真正理解需要的知识太深奥,所以我也没能从数学上严谨地进行推导而得出所需的结论,于是只好描述性地介绍下。
一、标准误(Standard Error)
标准误和标准差名字很像,但是作用很不一样。标准误是衡量均数抽样误差大小的尺度。因为各个样本的均数是有差异的,所以如果我们对所有的样本均数进行考察——也就是考察他们的均数以及标准差/方差,那么就会有一些发现。自然,所有样本均数的均数就是总体均数,而所有样本均数的标准差,就是我们所说的标准误,或者称之为标准误差均值(Standard error of the mean)。标准误的公式是 ,其中s是这份样本的标准差,n是这份样本的容量。标准差用来衡量样本中各个值与均数的平均差值,而我们所求的这个标准误差均值实际上也就是对样本均数与真实均数(即总体均数)的平均差值的估计。这个估计已经跨出了我们求置信区间的第一步。
二、显著性水平
注意前文我们说过了置信区间主要是用来“估计出总体的均数大概会出现的范围而不是其确切的值”,那么为了严谨,我们必须准确地定义这个“大概”到底是什么意思。自然地,我们会想到去定义总体均数会落在这个置信区间内的概率。也就是说,总体均数是有可能落在置信区间外面的,那么这个总体均数落在置信区间外面的概率就称作显著性水平,通常用来表示。一般统计学习惯上令
,另外一层含义就是总体均数有95%的可能落在我们求出的置信区间之中。
三、t-分布
前文定义了标准误和显著性水平,可以看出,其中有样本容量n,标准差s以及显著性水平三个主要的参数,那么我们的置信区间就与这三个参数有关。如果我们知道了总体的标准差,那么就会好办很多,但是一般情况是不会知道的,所以我们只能用从样本中估算出来的标准差进行计算。一般来说我们默认总体是符合正态分布的,但是我们要如何描述样本的分布情况呢?一位笔名为Student的数学家提出了一个今日称为“学生t-分布”(Student’s T-distribution)的统计模型,可以很好地描述样本的分布情况。这个分布可以根据样本大小以及显著性水平得到一个值,一般来说记做
。这个值不能准确地表示出来,只能通过查表得到,在维基上面有。
上图(原图在此)是t分布和标准正态分布的概率密度函数图形,v=n-1,可以看出n越大,对应的t-分布就越接近正态分布,实际上标准正态分布是t分布在n趋向于无穷时候的极限。大家都知道,概率密度函数与整条x轴围成的面积是1。一般来说我们使用t-分布来描述的模型是建立在原总体符合正态分布的基础上的,而将一个正态分布转换到标准正态分布的变换公式是,其中
是那个事先假设的均数,当我们不知道总体标准差的时候就使用近似的公式,即
——使用估计的标准差s代替总体的标准差
。
首先我们根据这个公式处理一下样本,将公式变成,也就是将他转化成“标准t-分布”——这个名字是我自己起的,主要是为了让大家和标准正态分布大概联系起来。接着我们就开始考察变换过来之后的这个值是多少,比如是1。接下来就要用到显著性水平的概念了。一般来说我们使用的是Two-Tail模型——Tail指的就是下图黄色的那块,One-Tail还分为Left-Tail和Right-Tail,他们的共同点就是Tail所占的面积就等于
。也就是说Two-Tail分布在如下图的白色范围内,其中一般设
。
于是,如果我们手上有一个样本,我们知道了s和v=n-1,那么就可以知道这个样本所对应的具体的t-分布了,先将这个样本标准化,接着我们就可以开始求置信区间了。
四、置信区间
铺垫了这么久,终于开始进入正题了。这个区间怎么求,上文其实也说了差不多一半了。梳理一下我们的思路,假设我们手上有一个容量为n的样本,我们求出了他的平均数和标准差
。现在我们想估计产生这个样本的总体实际均数
的范围,这个范围就称作置信区间。首先我们要确定这个置信区间的
值,一般是设为5%,也就是说总体均数有95%的可能落在我们估计的这个区间中。根据之前所说的t-分布,我们就可以开始计算了。
首先我们可以知道一个区间[-c,c],使得对应样本的t分布在[-c,c]上与x轴围成的面积为0.95(为什么),接着回忆这个公式:。对我们求出的
使用这个公式,其中
是未知数,于是我们可以得到如下的不等式:
解这个不等式,得到:
那么,这就是我们所求的置信区间。
其中c的值由n和决定,n决定了t分布的形状,
决定了这个区间的宽度。
和n越大,c越小。然而改变
会导致这个区间的“代表性”的降低,所以我们可以通过增大n,也就是增大样本容量的方法来得到一个越来越精确的置信区间。当n趋向于正无穷的时候,也就是t-分布趋向于正态分布的时候,c约为1.96 。
P.S. 这篇文章终于写完了……看了看wp的编辑记录,我是从7月8号开始写的,本来那天准备一鼓作气写完,谁知写了大半断网,服务器只存下了前两段,当时那个泪奔……然后我就开始军训了,没有足够多的整块时间来写完,而时间的推迟导致了思维的断层,只能每天挤一点,有时候干脆打实况去了。终于今早下雨提前收操,绵延了20天的草稿也终于没有变成大坑。
本文由 严酷的魔王 创作,转载或引用前请联系我们。
相关文章:
- 用极限证明伯努利不等式
- 素数有无穷多个的另类证明(二):素数的某个求和式
- 从(0,1]×(0,1]到(0,1]的双射
- 统计与推理(3):KTV里的骰子游戏
- 素数有无穷多个的另类证明(一):两两互素的无穷序列


t分布好像十字架分布- -
回复
那就T-分布……
回复
我看到万恶的上α/2分位数了。。。
回复
想到大物实验书上的贝塞尔……
回复
什么贝塞尔……
回复
首先我们可以知道一个区间[-p,p],使得对应样本的t分布在[-c,c]上与x轴围成的面积为0.95(为什么)<<其實第一個是不是[-c,c]? 沒見你後面出現過[-p,p]…
回复
啊= =应该是[-c,c],谢谢指出,已改正
回复
不會呀~我謝謝你才對…這麼詳細的講義真是我這種逃課一學期的人的大救星呀~ 可惜你不在這裡…不然真的要聘請你幫我私人補習…
回复
你也是学统计的么~?
回复
不是…所以才悲劇…完全學不動…你介意留個Q方便我請教你嗎?
回复