三、方差(variance)和标准差(standard deviation)

为了克服极差的缺点,需全面地考虑组内每个观察值的离散情况。因为组内每一观察值(亦称变量值)与总体均数的距离大小都会影响总体的变异度,故有人提出以各变量值离均差(X-μ)的平方和除以变量值的总个数N,来反映变异度大小,称为总体方差,用σ2示之。

公式(18.10)

由式可见,各个离均差平方后,原来的度量单位变成了平方单位。为了用原单位表示而将总体方差开方,称为总体标准差。

公式(18.11)

以上是总体方差和标准差。实际工作中经常得到的是样本资料,μ是未知的,只能用样本均数x来代替μ,用样本含量n代替N,按公式(18.11)算得的标准差常比σ小,美国统计学家W.S.Gosset提出用n-1代替n,求得样本标准差s,即

公式(18.12)

式中的n-1,在统计学上称为自由度(degree of freedom)

数学上可以证明离均差平方和Σ(X-x)2=ΣX2-(ΣX)2/n,故公式(18.2)可演变为:

直接法公式(18.13)

加权法公式(18.14)

方差与标准差适用于对称分布,特别是正态或近似正态分布资料。

例18.10 试分别计算例18.8中三组男孩体重资料的标准差。

甲组:n=5,ΣX=26=28+30+32+34=150

ΣX2=262+282+302+322+342=4540

按式(18.13)

乙组:n=5,ΣX=150,ΣX2=4590

丙组:n=5,ΣX=150,ΣX2=4534

以上计算表明:S丙<S甲<S乙亦即乙组的变量度最大,甲组次之,丙组最小。

例18.11 求表18-2中110名20岁健康男大学生身高的标准差。

由表18-2,已知Σf=110,ΣfX=19000,再用第(2)栏乘第(4)栏后相加得ΣfX2。如本例,ΣfX2=163×163+165×660+……+183×366=3283646代入式(18.14)