方差与标准差


具有以下属性的散布度量将是有用的:

  1. 度量应该与数据的分散成比例(当数据聚集在一起时很小,当数据广泛分散时很大)。

  2. 该度量应该与数据集中的值的数量无关(否则,仅通过进行更多测量,即使测量的散布没有增加,该值也会增加)。

  3. 该措施应该与平均值无关(因为现在我们只对数据的传播感兴趣,而不是其中心趋势)。

两个方差标准偏差满足这三个标准正态分布的(对称的,“钟形曲线”)的数据集。

方差(σ 2)是在数据组中的每个值相差多少的平均值的度量。以下是它的定义方式:

  1. 从数据中的每个值中减去均值。这可以衡量每个值与平均值的距离。

  2. 对这些距离中的每一个进行平方(以便它们都是正值),并将所有正方形加在一起。

  3. 将平方和除以数据集中的值数。

标准差(σ)只是方差的(正)平方根。

求和运算符

为了编写定义方差的方程,最简单的方法是使用求和运算符 Σ。求和运算符只是一种简写的写法,“取一组数字的总和。” 作为一个例子,我们将展示如何使用求和运算符来编写用于计算数据集1的平均值的等式。我们首先将每个数字分配给变量1 - 6,如下所示:

数据集1
变量
13
24
34
4
56
68

将变量(X)视为每个植物的实验样叶数的测量数量 - 并将下标视为指示试验数(1-6)。为了计算每株植物的平均叶数,我们首先必须将六个试验中的每一个的值相加。使用求和运算符,我们这样写:

求和运算符是写“取一组数字之和”的简写方法。

这相当于:

求和X变量写出来。

要么:

求和变量值写出来。

显然,使用求和运算符写入的总和要紧凑得多。下面是计算平均方程,μ X,采用求和运营商设定我们的数据:

平均值等于六个值除以六的总和。

计算一组数字1 - N的平均值μ的一般公式如下:

使用求和符号计算一组数字的平均值的等式。

有时候,为了简单起见,下面省略了下标,正如我们在右边所做的那样。取消下标会使方程式变得更加混乱,但仍然可以理解,您正在将X的所有值相加。

方程定义方差

现在您已了解求和运算符的工作原理,您可以了解定义总体方差的等式(请参阅本页末尾有关总体方差和样本方差之间的差异,以及您应该将哪一个用于科学项目) :

定义方差的公式。

方差(σ 2),被定义为每一个项的平方距离的在从所述平均值(分布的总和μ),通过在分布(项数除以Ñ)。

有一种更有效的方法来计算一组数字的标准偏差,如下式所示:

计算方差的公式。

您可以获取分布中术语的平方和,并除以分布中的项数(N)。从此,你减去平均值(平方μ 2)。以这种方式计算标准偏差的工作要少得多。

很容易向自己证明这两个方程是等价的。从方差的定义开始(下面的等式1)。展开表达式,以便将平均值与平均值的距离进行平方(下面的公式2)。

计算方差的公式。

现在将方程的各个项分开(求和运算符分配括号中的项,参见上面的公式3)。在最后的术语,总和μ 2 / Ñ,采取Ñ次,只是Nμ 2 / Ñ

接下来,我们可以简化公式3.在第二个任期的第二项和第三项,你可以看到,Σ X / ñ是写作的只是另一种方式μ,术语的平均水平。所以第二项简化为-2 μ 2(比较等式3和4,上图)。在第三项,Ñ / Ñ等于1,所以第三项简化为μ 2(比较等式3和4,上图)。

最后,根据公式4,您可以看到第二项和第三项可以组合,为我们提供了我们试图在公式5中证明的结果。

作为一个例子,让我们回到我们开始讨论的两个发行版:

数据集1:3,4,4,5,6,8 
数据集2:1,2,4,5,7,11。

每个数据集的方差和标准差是多少?

我们将构造一个表来计算值。您可以使用类似的表格来查找实验结果的方差和标准差。

数据集ñΣ XΣ 2μμ 2σ 2σ
16三十166252.671.63
26三十2162511.003.32

虽然这两个数据集具有相同的平均值(μ  = 5),方差(σ 2)所述第二数据集,11.00的,是略多于4倍所述第一数据集,2.67的方差。标准差(σ)是方差的平方根,因此第二个数据集的标准差3.32,刚好超过第一个数据集的标准偏差的两倍,即1.63。

具有相对较小散射的数据集,显示方差和标准偏差。



具有相对更多散射的数据集,显示方差和标准偏差。

方差和标准偏差给出了数据集散点的数值测量。这些度量对于在数据集之间进行比较非常有用,这些数据集超出了简单的视觉印象。

种群方差与样本方差

上面给出的等式向您展示了如何计算整个总体的方差。但是,在进行科学项目时,您几乎永远无法访问整个人口的数据。例如,您可以测量教室中每个人的身高,但无法衡量地球上每个人的身高。如果你用弹射器发射一个乒乓球并测量它的行进距离,理论上你可以无限次地发射球。在任何一种情况下,您的数据只是整个人口的样本。这意味着您必须使用稍微不同的公式来计算方差,在分母中使用N-1项而不是N

方差方程

这被称为贝塞尔的修正