总体(population)是一个或一组对象,代表了感兴趣的特定分组或者类别的所有成员。样本 是从更大的总体中抽取的子集。研究者选取样本的方式很多,但是其中最有用也最难实现的是随机样本(random sampling)。“随机”代表总体中每个对象被选入样本的概率相等。从总体数据中计算得到的一个或多个值被称为参数(parameter)。

变量(variable)几乎可以是能被编码的任何东西,并且具有不止一个取值。常量 (constant)具有唯一的取值。变量类型包括连续变量分类变量自变量(independent variable)依假设,决定因变量取值的变量。自变量一般由研究者控制,但并非总是如此。因变量(dependent variable)依假设,因变量值取决于自变量的值。

统计学家花费大量时间来讨论分布(distributions)。简言之,分布就是变量数据或取值的一个集合。均值(mean)是一个分布中所有取值的算数平均数。均值也叫数学期望,在一定程度上可以简单的概括分布的大致情况,但是均值无法揭示分布中每个值的离散程度(方差),也无法说明分布中有多少个取值接近均值。中位数(median)是分布中排在第50%处的取值,分布中有50%的取值大于中位数,50%的数小于中位数。在计算中,如果分布中数据的总数是偶数,则取中间两个值的平均值。中位数可以用来考察一个分布中取值是否有偏,或者该分布的两端是否存在一些极端取值。一个分布的均值可能会受到所谓“异常值(outliers)”的影响,特别是这个值远远小于或者大于均值的情况下,而中位数则不会收到这些值的影响。众数(mode)是指分布中最常出现的取值,或者具有最高频数的取值。

均值、中位数一般用于数据中心趋势的测量,但是它们存在一定的局限性。为了更加了解数据分布中的离散程度,研究者定义了三个指标:极差(range)、方差(variance)、标准差(standard deviation)。其中标准差是信息量最大,也是使用最广泛的。

分布中的最大值(maximum value)与最小值(minimum value)之差就是这个分布的极差。不过极差颇具误导性,只能让研究者对分布的情况进行初步了解。另一种常见的测度是四分位差(interquartile range,IQR)。四分位差是分布中第 75% 位数与第 25% 位数之差。离差(deviation)是指一个分布中单个取值与该分布的平均取值之差。方差是离差平方和的均值。标准差是方差的算术平方根。公式描述如下:

总体 样本
方差 $\sigma^2 = \frac { {\sum_{i=1}^N} (X - \mu) ^2 } {N}$ $s^2 = \frac { {\sum_{i=1}^n} (X - \overline{X}) ^2 } {n - 1}$
标准差 $\sigma = \sqrt{ \frac { {\sum_{i=1}^N} (X - \mu) ^2 } {N} }$ $s = \sqrt{ \frac { {\sum_{i=1}^n} (X - \overline{X}) ^2 } {n - 1} }$

总体的标准差:其中 $\sum$ 代表求和,X 表示分布中的一个取值,$\mu$ 表示总体均值,N 表示总体对象的个数,n 表示样本中对象的个数,$\overline{X}$ 表示样本均值。

下面是一个解释方差为什么使用平方而非绝对值进行计算的绝佳案例:

问题一:如果要从甲、乙两名选手中选拔一名参加射击比赛?你将设计什么方案?

学生:总分高的。
老师:若有一名选手射击5次,总分30;而另一名选手射击10次,总分50分,你又会选择谁?
学生:看来还是算平均分合适。

问题二:你选择谁?
甲:3、5、6、7、9
乙:4、5、6、7、8

从数据中,可以看出用平均数来选拔是不可取的。尽管平均环数相同,但二人的水平还是有差距的。让学生充分研讨,经过观察分析数据,比较容易达成这样的共识:甲最多9,最少3环,波动范围较大,而乙最多8,最少4,波动范围较小。因此乙较稳定,应该选拔乙。

问题三:极大值与极小值的差能分析准确吗?
甲:3、5、6、7、9
丙:3、6、6、6、9

不难发现,虽然最多比最少差距相同,但丙比甲要稳定。同时还发现:在平均数相同的情况下,单纯比较最大与最小两个数据,不能够说明一组数据的整体波动情况,每个数据都有决定权。那么又如何反映一组数据的波动情况?

学生:用各个数据减去它们的平均数,得到各个数据的偏差;再将各偏差相加。
经过一算:不难得出甲、乙、丙的偏差和都为0。到这一步,同学们会突然想到去掉偏差的负号问题。

老师引导学生进行探索、分析,最后归纳出两种方法。

方法一、先求各偏差的绝对值,再相加。

方法二、先求各偏差的平方,再相加。

问题四:算一算下列数据的偏差和。
甲:3、5、6、7、9
乙:4、5、6、7、8
丙:3、6、6、6、9

用方法一算得:甲:8;乙:6;丙:6(又如何比较乙、丙的稳定性呢?)
用方法二算得:甲:20;乙:10;丙:18(这种算法算得,三者的稳定性都不一样?也让学生初步体会用平方而不用绝对值的目的就是将数据间的差距拉大)

问题五:乙孤军奋战(求偏差平方和):
第一阶段:4、5、6、7、8
第二阶段:4、5、6、7、8、4、5、6、7、8
第三阶段:4、5、6、7、8、4、5、6、7、8、4、5、6、7、8
……
从上面的计算看出:单求偏差平方和,易因“数据越多而导致偏差平方和也越大”的结论,而实际上它们的稳定性应该是相同的。从而得出结论:只有求得“偏差的平方”的平均数才能真实地描述波动特征。