方差与标准差
具有以下属性的散布度量将是有用的:
度量应该与数据的分散成比例(当数据聚集在一起时很小,当数据广泛分散时很大)。
该度量应该与数据集中的值的数量无关(否则,仅通过进行更多测量,即使测量的散布没有增加,该值也会增加)。
该措施应该与平均值无关(因为现在我们只对数据的传播感兴趣,而不是其中心趋势)。
两个方差和标准偏差满足这三个标准正态分布的(对称的,“钟形曲线”)的数据集。
方差(σ 2)是在数据组中的每个值相差多少的平均值的度量。以下是它的定义方式:
从数据中的每个值中减去均值。这可以衡量每个值与平均值的距离。
对这些距离中的每一个进行平方(以便它们都是正值),并将所有正方形加在一起。
将平方和除以数据集中的值数。
标准差(σ)只是方差的(正)平方根。
求和运算符
为了编写定义方差的方程,最简单的方法是使用求和运算符 Σ。求和运算符只是一种简写的写法,“取一组数字的总和。” 作为一个例子,我们将展示如何使用求和运算符来编写用于计算数据集1的平均值的等式。我们首先将每个数字分配给变量X 1 - X 6,如下所示:
数据集1 | |
---|---|
变量 | 值 |
X 1 | 3 |
X 2 | 4 |
X 3 | 4 |
X 4 | 五 |
X 5 | 6 |
X 6 | 8 |
将变量(X)视为每个植物的实验样叶数的测量数量 - 并将下标视为指示试验数(1-6)。为了计算每株植物的平均叶数,我们首先必须将六个试验中的每一个的值相加。使用求和运算符,我们这样写:
这相当于:
要么:
显然,使用求和运算符写入的总和要紧凑得多。下面是计算平均方程,μ X,采用求和运营商设定我们的数据:
计算一组数字X 1 - X N的平均值μ的一般公式如下:
有时候,为了简单起见,下面省略了下标,正如我们在右边所做的那样。取消下标会使方程式变得更加混乱,但仍然可以理解,您正在将X的所有值相加。
方程定义方差
现在您已了解求和运算符的工作原理,您可以了解定义总体方差的等式(请参阅本页末尾有关总体方差和样本方差之间的差异,以及您应该将哪一个用于科学项目) :
方差(σ 2),被定义为每一个项的平方距离的在从所述平均值(分布的总和μ),通过在分布(项数除以Ñ)。
有一种更有效的方法来计算一组数字的标准偏差,如下式所示:
您可以获取分布中术语的平方和,并除以分布中的项数(N)。从此,你减去平均值(平方μ 2)。以这种方式计算标准偏差的工作要少得多。
很容易向自己证明这两个方程是等价的。从方差的定义开始(下面的等式1)。展开表达式,以便将平均值与平均值的距离进行平方(下面的公式2)。
现在将方程的各个项分开(求和运算符分配括号中的项,参见上面的公式3)。在最后的术语,总和μ 2 / Ñ,采取Ñ次,只是Nμ 2 / Ñ。
接下来,我们可以简化公式3.在第二个任期的第二项和第三项,你可以看到,Σ X / ñ是写作的只是另一种方式μ,术语的平均水平。所以第二项简化为-2 μ 2(比较等式3和4,上图)。在第三项,Ñ / Ñ等于1,所以第三项简化为μ 2(比较等式3和4,上图)。
最后,根据公式4,您可以看到第二项和第三项可以组合,为我们提供了我们试图在公式5中证明的结果。
作为一个例子,让我们回到我们开始讨论的两个发行版:
数据集1:3,4,4,5,6,8
数据集2:1,2,4,5,7,11。
每个数据集的方差和标准差是多少?
我们将构造一个表来计算值。您可以使用类似的表格来查找实验结果的方差和标准差。
数据集 | ñ | Σ X | Σ X 2 | μ | μ 2 | σ 2 | σ |
---|---|---|---|---|---|---|---|
1 | 6 | 三十 | 166 | 五 | 25 | 2.67 | 1.63 |
2 | 6 | 三十 | 216 | 五 | 25 | 11.00 | 3.32 |
虽然这两个数据集具有相同的平均值(μ = 5),方差(σ 2)所述第二数据集,11.00的,是略多于4倍所述第一数据集,2.67的方差。标准差(σ)是方差的平方根,因此第二个数据集的标准差3.32,刚好超过第一个数据集的标准偏差的两倍,即1.63。
方差和标准偏差给出了数据集散点的数值测量。这些度量对于在数据集之间进行比较非常有用,这些数据集超出了简单的视觉印象。
种群方差与样本方差
上面给出的等式向您展示了如何计算整个总体的方差。但是,在进行科学项目时,您几乎永远无法访问整个人口的数据。例如,您可以测量教室中每个人的身高,但无法衡量地球上每个人的身高。如果你用弹射器发射一个乒乓球并测量它的行进距离,理论上你可以无限次地发射球。在任何一种情况下,您的数据只是整个人口的样本。这意味着您必须使用稍微不同的公式来计算方差,在分母中使用N-1项而不是N:
这被称为贝塞尔的修正。