统计与推理 系列的第 1 篇 (本系列共3篇)

2011-7-19 Update:居然被一些同学发现了……不过本文的图片在blog进行服务器转移的时候没有备份好……所幸这些概念性的图片可以使用Google,Wikipedia来找到类似的进行理解。然后已经修改了从Matrix67的Blog引用的文章图片也未能显示的问题。

虽然说我是一个统计系的学生,但是大一行将结束的时候,我只学了一门与其他数计院专业不同的课程:统计推理(statistical reasoning)。

我很喜欢这门课,因为它在不涉及概率统计深奥原理的前提下向我们很好地展示了统计学的基本思想方法。统计学作为一门有力的工具,已经成为了各个科学领域都必须运用的(特别是生物)数据分析方法。当初我填报中大的统计学主要是因为数学与应用数学不在广西招生(- -||),但是学了这个之后,我倒也没了什么转专业的念头了。

估计我会把这个学期的这门课按照我的理解写成一个小系列,大概四五篇文章的样子,和大家交流一下统计学的思想方法。

统计学中最基础的应该就是描述性统计了。这是一个基本上人人都知道的内容——计算平均数,求方差什么的。不过这里面其实也大有文章。

首先我们要明确样本的概念。在我们的研究中,实际观测或调查的一部分个体称为样本,所研究对象的全部称为总体。所以说样本能够从某种程度上代表总体,但是基本上不会表现得和总体一样。统计学要做的事就是从样本中分析出总体,一般人是“管中窥豹”,而我们希望做到“一叶知秋”。在描述性统计当中,我们的方法是通过计算几个统计量,得到对数据的初等认识。

一、集中趋势

说到对样本的计算,可能大部分人的第一反应就是计算平均数。平均数确实是一个最常用的统计量,但是这还不够。教材上都会给出这样的例子:一个工厂平均月薪是¥3000,看上去非常高,但是实际上是工人20名,每人月薪¥1000,中层干部3名,每人月薪¥6000,一名老总,月薪34000。之所以会出现这种情况,就是因为多了“老总”的存在,我们称之为“偏值”(Outlier)。这样的数据对于平均数来说一般是致命的。所以为了描述这样的数据,我们不得不引入另外两个描述的方法:众数和中位数。

顾名思义,众数就是出现次数最多的数,中位数就是整个样本中大小中等的数。他们对样本的解读起到了很重要的作用。比如上面举的例子更适合使用中位数和众数。它们的出现很大程度上弥补了平均数受偏值影响严重这一事实。这三个指标也是各有优劣,平均数对于样本来说是很稳定的,意即不同的样本平均数差别不是很大,而中位数和众数对样本就不是很稳定了。中位数的好处就是不容易受到偏值的影响,而众数的好处就是便于计算,也更方便数据的分类。这三个统计量互相弥补,我们将这三个指标称为集中趋势(Central Intendency)

二、离散程度

可能还有很多人记得另外两个学过的指标:方差和标准差。这两个指标描述的是整个样本是如何偏离于平均数的,这两个指标在描述性统计之外也大有用途,以后会谈到。除了这两个指标以外,我们还有很多的统计量,比如四分位数(四分之三位数),极差等。四分位数就是处于整个数据四分之一和四分之三位置的数,与中位数一起基本将整个样本分割成了4块。极差(range)便是最大数和最小数的差。这些指标构成了样本的离散程度

三、分布特征与图表

其实说了这么多,还有一个很重要的东西没有涉及到,那就是样本的“形状”——也就是它的分布特征。一般我们要讨论这个数据是否符合正态分布,是否偏斜——上面的那个例子就是严重地向左偏斜(因为在数轴上从左到右数据是增大的,所以习惯上“左倾”就是向小数据倾斜)。

讨论样本形状的时候,更方便地便是画出样本的图示。有时候图示会给我们带来意想不到的结果。最常用的一般是直方图或是折线图,这样的图示很明确地展示了每一段样本的分布情况。不过他们并不是唯一的,有一种叫做盒须图(box-and-whisker plot)的图示从另一个角度向我们展示了样本的分布情况。

上面就是一幅盒须图,我们可以看出中位数,四分位数,极值等指标。是不是比纯粹的数据描述的离散程度更加直观呢?

以上便是描述性统计的大概内容了。描述性统计是对样本以及总体的一个初等认识,也是传媒对大众进行宣传的时候常用的方法。

最后我们来看一个Matrix67在他的blog上给过的一个例子

1973年,统计学家F.J. Anscombe构造出了四组奇特的数据。它告诉人们,在分析数据之前,描绘数据所对应的图像有多么的重要。

Anscombe’s Quartet
I II III IV
x y x y x y x y
10.0 8.04 10.0 9.14 10.0 7.46 8.0 6.58
8.0 6.95 8.0 8.14 8.0 6.77 8.0 5.76
13.0 7.58 13.0 8.74 13.0 12.74 8.0 7.71
9.0 8.81 9.0 8.77 9.0 7.11 8.0 8.84
11.0 8.33 11.0 9.26 11.0 7.81 8.0 8.47
14.0 9.96 14.0 8.10 14.0 8.84 8.0 7.04
6.0 7.24 6.0 6.13 6.0 6.08 8.0 5.25
4.0 4.26 4.0 3.10 4.0 5.39 19.0 12.50
12.0 10.84 12.0 9.13 12.0 8.15 8.0 5.56
7.0 4.82 7.0 7.26 7.0 6.42 8.0 7.91
5.0 5.68 5.0 4.74 5.0 5.73 8.0 6.89

这四组数据中,x值的平均数都是9.0,y值的平均数都是7.5;x值的方差都是10.0,y值的方差都是3.75;它们的相关度都是0.816,线性回 归线都是y=3+0.5x。单从这些统计数字上看来,四组数据所反映出的实际情况非常相近,而事实上,这四组数据有着天壤之别。

把它们描绘在图表中,你会发现这四组数据是四种完全不同的情况。第一组数据是大多人看到上述统计数字的第一反应,是最“正常”的一组数据;第二组数据所反 映的事实上是一个精确的二次函数关系,只是在错误地应用了线性模型后,各项统计数字与第一组数据恰好都相同;第三组数据描述的是一个精确的线性关系,只是 这里面有一个异常值,它导致了上述各个统计数字,尤其是相关度值的偏差;第四组数据则是一个更极端的例子,其异常值导致了平均数、方差、相关度、线性回归 线等所有统计数字全部发生偏差。

本文由 严酷的魔王 创作,转载或引用前请联系我们

相关文章:

  1. 统计与推理(2):置信区间
  2. 统计与推理(3):KTV里的骰子游戏
  3. 关于游客困境的见解
  4. 3D的莫比乌斯带
  5. 小学的方法,超越数与其它

标签:, ,

2010年7月4日 星期天

3条评论

留下您的足迹

2010 f(Program,Poet)=Programet.
Powered by Wordpress. Theme by Pharmacy Drugs and LastLeaf.