关键信息
现在您已经收集了原始数据,并且您获得了多次实验试验的结果。您如何从成堆的原始数据转到可帮助您分析数据并支持结论的摘要?
幸运的是,您的数据的数学摘要只需几个数字即可传达大量信息。这些摘要称为描述性统计。以下讨论简要介绍了通常最有用的两种描述性统计:
计算数据“中间”或“平均”的摘要; 这些被称为集中趋势的衡量标准,并且
总结表明原始测量值在平均值附近的“扩散”,称为分散度量。
中心趋势的衡量标准:均值,中位数和模式
在大多数情况下,您想要了解的关于一组测量的第一件事是“平均值”。但究竟什么是“平均值”?它是我们测量的数学平均值吗?它是我们数据集中的一种中间点吗?这是最常发生的结果吗?实际上,这三种措施中的任何一种都可以用来传达数据的集中趋势。大多数情况下,使用数据的数学平均值或平均值,但有时也会使用其他两个度量,即中位数和模式。
我们将以植物生长实验为例。假设该实验是为了测试在添加了堆肥的土壤中生长的植物是否比在没有堆肥的相同土壤中生长的植物生长得更快。让我们假设我们为每种情况使用了六个独立的盆,每盆一株。(在许多情况下,您的项目将进行六次以上的试验。我们使用较少的试验来简化说明。)选择的增长措施之一是每株植物的叶数。假设获得以下结果:
没有堆肥的植物生长 (叶子/植物的数量) | 堆肥植物生长 (叶子/植物数量) |
6 | 五 |
4 | 9 |
五 | 9 |
4 | 11 |
8 | 8 |
3 | 6 |
意义
的平均价值就是我们通常所说的“平均”。您可以通过将一组中的所有测量值相加然后除以测量值来计算平均值。对于“无堆肥”情况,平均值为5,如图所示。

对于“with compost”情况,均值为8.使用上述表格中的数字为自己进行计算,以确认这是正确的。
中位数和模式
找到中位数和模式的最简单方法是首先按照从最小到最大的顺序对每组测量进行排序。以下是按顺序排序的值:
没有堆肥的植物生长 (叶子/植物的数量) | 堆肥植物生长 (叶子/植物数量) |
3 | 五 |
4 | 6 |
4 | 8 |
五 | 9 |
6 | 9 |
8 | 11 |
中位数是该组中点的值。更明确地说,该组中恰好有一半的值小于中位数,而该组中另一半的值大于中位数。如果存在奇数个测量值,则当值按升序排列时,中值简单地等于组的中间值。如果存在偶数个测量值(如此处),则中值等于两个中间值的平均值(同样,当值按升序排列时)。对于“无堆肥”基团,中值等于3的值的平均值RD和4 个值,这正好是4和5:
“无堆肥”组的中位数=(4 + 5)/ 2 = 4.5。
请注意,根据定义,三个值(3,4和4)小于中位数,其他三个值(5,6和8)大于中位数。“与堆肥”组的中位数是多少
模式是在测量组中最常出现的值。对于“无堆肥”组,模式为4,因为该值重复两次,而所有其他值仅表示一次。“堆肥”组的模式是什么?
一组数据完全可能根本没有模式,或者它有多个模式。如果所有值以相同的频率出现(例如,如果所有值仅出现一次),则该组没有模式。如果在最高频率处出现多个值,则这些值中的每一个都是模式。以下是一组具有两种模式的原始数据示例:
16,26,26,28,29,32,34,36,38,39,40,41,41,43,44,50。
此数据集的两种模式分别为26和41,因为每个值都出现两次,而所有其他值只出现一次。具有两种模式的数据集有时被称为“双模态”。多模态数据集也是可能的。
平均值,中位数或模式:我应该使用哪种方法?
这些措施有什么区别?你何时会选择优先使用另一个?下图显示了图表上“无堆肥”数据样本的均值,中位数和模式。在X轴表示单株叶片数。每个酒吧的高度(y-axis)显示具有一定数量叶子的植物数量。(将图表与表格中的数据进行比较,您将看到所有原始数据值都显示在图表中。)此图表显示为什么均值,中位数和模式都被称为集中趋势的度量。数据值分布在图表的水平轴上,但均值,中位数和模式都朝向中心聚类。每一个都是对实验中“平均”发生的情况略有不同的衡量标准。模式(4)显示每株植物的叶数最常出现。中位数(4.5)显示将数据点分成两半的值; 一半的值较低,一半的值高于中位数。均值(5)是所有数据点的算术平均值。

通常,均值是最常用于描述一组测量的集中趋势的描述性统计量。在这三个指标中,它是最敏感的指标,因为它的值始终反映了该组中每个数据值的贡献。中位数和模式对一组极端情况下的“异常值” - 数据值不太敏感。想象一下,对于“无堆肥”组,叶子数量最多的植物有11片叶子,而不是8片。中位数和模式都保持不变。(检查自己并确认这是真的。)然而,平均值现在是5.5而不是5.0。
另一方面,有时候,对数据极端变化不太敏感的集中趋势度量是有利的。例如,如果您的数据集在一个极端包含少量异常值,则中位数可能是比平均值更好地衡量数据集中趋势的指标。
如果您的结果涉及类别而不是连续数字,那么集中趋势的最佳衡量标准可能是最常见的结果(模式)。例如,假设您对最有效的戒烟方式进行了调查。根据您的调查确定,对结果集中趋势的合理衡量标准是最常用的方法。
重要的是要考虑使用描述性统计数据来实现的目标,而不是盲目地使用它们。如果您的数据包含多个模式,那么使用简单的中心趋势度量(如均值或中位数)对它们进行汇总将会模糊这一事实。表1是一个快速指南,可帮助您确定与数据一起使用的集中趋势度量。
首先,你想描述什么? | 其次,您的数据是什么样的? | 那么,集中趋势的最佳衡量标准是...... |
群体或事物类别。调查结果通常属于这一类,例如,“最有效的戒烟方式是什么?” 或“课后活动中的性别差异” | 
| 模式。在这些组成的调查结果中,“冷火鸡”是最常见的反应。 |
排名等级,例如:电影,书籍或餐馆的1-5星级 | 
| 中位数。本次调查的中位数电影排名为2.3星。 |
线性尺度的测量(例如,电压,质量,高度,金钱等) | 
| 平均。该数据的形状在图的左侧和右侧大致相同,因此我们称之为对称数据。对于对称数据,均值是集中趋势的最佳度量。在这种情况下,平均体重为178克。 |

| 中位数。请注意此图中的数据是如何非对称的。数据的峰值不居中,峰值左侧的体质值比右侧更大幅度地下降。当峰值像这样移动到一侧或另一侧时,我们将其称为偏斜数据。对于偏斜数据,中位数是衡量集中趋势的最佳选择。该偏斜人群的中位体重为185克。 |

| 请注意此图表有两个峰值。我们将数据称为两个突出的峰值双峰数据。在双峰分布的情况下,您可能有两个群体,每个群体都有自己独立的集中趋势。这里一组的平均体重为147克,另一组的平均体重为178克。 |

| 没有。请注意此图形如何在峰的尾部之间具有三个峰和大量重叠。我们称之为多模式数据。没有单一的集中趋势。通过参考图表来描述这样的数据是最容易的。在这种情况下,不要使用集中趋势的衡量标准,这会产生误导。 |

| 没有。在这种情况下,数据遍布整个地方。在某些情况下,这可能表示您需要收集更多数据。在这种情况下,没有集中趋势。 |
分散度量:范围,方差和标准偏差
集中趋势的度量描述了数据集的“平均值”。衡量的另一个重要质量是数据集的“传播”。例如,这两个数据集都具有相同的均值(5):
数据集1:3,4,4,5,6,8
数据集2:1,2,4,5,7,11。
虽然两个数据集具有相同的均值,但很明显数据集2中的值比数据集1中的值更加分散(参见下图)。对于哪个数据集,使用“5”的平均描述会感觉更舒服?用另一种方法来描述数据集的“传播”会很好。这样的措施可以让我们一眼就知道数据集中的值是否通常接近或远离均值。


测量散射质量的描述性统计称为分散度量。当添加到先前讨论的集中趋势度量时,分散度量给出了更完整的数据集图。我们将讨论三种这样的测量:范围,方差和标准偏差。
范围
数据集的范围是三个度量中最简单的。范围由集合中的最小和最大数据值定义。数据集1的范围是3-8。数据集2的范围是多少?
通过定义两个极端,该范围仅提供关于数据传播的最小信息。它没有说明数据如何在这两个端点之间分配。另外两个相关的色散度量,方差和标准差,提供了数据分散程度的数字汇总。
有关更高级的材料,请参阅方差和标准偏差。