高等科学项目的实验设计


Sandra Slutz博士,科学伙伴科学家
Kenneth L. Hess,科学伙伴创始人兼总裁

前言

高级科学项目和独立科学研究总是受到严格的审查。该领域的其他科学家将关注您的工作,并期望对数据进行严格分析。但严格的分析也需要仔细的实验设计。如果您没有花时间考虑您将要进行的观察类型,可能的结果,以及如何评估您的数据以在结果之间进行统计学区分,您可能无法进行实际上可以为您提供信息的实验数据 - 这将是不好的科学浪费你的时间!以下部分讨论了创建信息性实验设计的技术,技巧和资源。虽然本指南将提到实验设计和统计测试的各种原则,但它并不是一本详尽的教科书。相反,我们鼓励您使用本指南作为熟悉实验设计一般原则的方法。一旦您熟悉了这些概念,我们建议您使用参考书目中列出的参考资料以及个人资源(例如您的导师和其他科学和数学专业人士)继续探索与您的科学项目最相关的主题,包括你的老师。我们也鼓励您阅读我们随附的文章 提高实验测量高等科学项目效果和 数据分析的能力。当集体使用时,这三篇文章中的信息将使您走上一条经过深思熟虑,高质量的研究项目。

同样值得注意的是,下面描述的允许您设计和评估自己的实验的相同原则也可以应用于评估另一个人的数据和后续解释(已发布或未发布)是否值得信任。

介绍

路线图:如何开始使用高级项目所述,即使在科学项目的计划阶段,也应该考虑数据分析。为什么?因为严格的分析依赖于统计数据,这些是描述数据的数学计算,并衡量观察支持特定假设并且不是由随机变化引起的信心。但是如果你做的观察太少,收集错误类型的数据,或者没有使用适当的控制,统计分析将总是回归“不确定”,这使你处于只能做出如下模糊陈述的位置: “数据趋势表明增长,但我必须进行更多实验才能确定。” Wishy-washy结果不会给评论你工作的人留下深刻的印象。它也不会被视为其他人建立科学研究的可靠基础。

Terik Daly,一位多才多艺的实验者和科学伙伴志愿者,通过陈述:总结了实验设计和数据分析的重要性:

  • “高级科学项目的数据分析涉及的不仅仅是条形图和散点图,它应该涉及具有统计意义的探索性数据分析和推理。为了进行有意义的统计分析,您需要考虑统计原则来设计实验。这包括:

  • 准确,清晰地定义变量和样本空间,

  • 准确定义您的因素和因素水平,

  • 确定您正在运行的实验类型,确保使用适当的控件,

  • 确保执行足够的复制以创建代表性的数据体,

  • 确保您了解数据的可能分布,以及

  • 确保您了解并熟悉您所在科学领域使用的探索性和推理性分析的类型。

  • 您必须考虑数据分析来设计实验,因为如果您实验之后不考虑分析数据,那么您将遇到问题。“


了解您所在领域的其他科学家如何设计他们的实验

了解您的实验可能带来的最佳方法是查看您所在科学领域的论文,看看其他研究人员正在测量什么以及如何测量你应该注意这样的事情:

  • 他们正在研究哪些变量

  • 哪些是自变量,哪些是因变量。注意:有关独立变量和因变量的复习,请参阅Science Buddies指南,了解 您的科学展览项目中的变量

  • 他们的样本大小是什么,意味着他们做了多少观察

  • 他们使用什么控件

  • 他们有多少实验重复

一旦您了解了您所在领域的标准,您就可以开始设计自己的实验,同时考虑变量,控制以及如何最大限度地提高您查看特定变量效果的能力。

了解不同类型的变量

变量有两种类型:定量和定性。根据您的实验,这些类型的变量中的任何一个都可以是独立变量或因变量。重要的是要识别您正在评估的变量类型,因为某些计算和统计测试只能对包含一种或另一种变量的数据执行。

定量变量大小不同它们可以很容易地测量并记录为数字。定量变量的示例包括年龄,身高,时间和体重。使用中值和平均值等数值计算可以很容易地汇总定量变量。

定性变量,有时称为分类变量,是观察结果不同的变量定性变量可以分为性别(男性与女性)或婚姻状况(未婚,已婚,离婚,丧偶)等类别。这使得它们特别适合在饼图或条形图中总结为百分比。

有时,可以对定性数据进行排名。例如,水果调查可能会将水果的味道列为:

  • 1 =非常甜蜜

  • 2 =中等甜蜜

  • 3 =略甜

  • 4 =既不甜也不酸

  • 5 =略微酸

  • 6 =中度酸味

  • 7 =非常酸

排名定性变量通常称为序数变量。尽管观察结果是定性的,但排名允许进行一些数值计算,如平均值。当您想要比较不同的人在事件之前和之后对数据进行分类的方式时,这一点尤其重要。例如,评估人们对“您认为这种水果味道如何?”的意见改变?之前,他们实际上品尝水果和他们得到一些样品进行试用。序数变量在社会和行为研究中特别常见。

在某些情况下,可以选择是否要收集定量或定性数据。例如,您可以向人们询问他们的确切年龄(定量),或者让他们选择他们是儿童,青少年,成年人还是老年人(定性)。通过预先规划数据分析方法,您可以选择最适合您研究目标的数据类型,从而选择最适合的实验设计。在计划实验时,请参考下面的表1,其中给出了几种不同类型变量的概述,适合它们的数据示例,以及与每种变量类型一起使用的一些常见统计汇总。

定量变量
变量类型定义数据示例常见的统计检验和摘要
分离数据在有限尺度上以数字方式描述。精度存在逻辑限制。
  • 一个家庭中的孩子数量

  • 细菌菌落在盘子上

  • 掷硬币

  • 鞋码

  • 意思

  • 中位数

  • 模式

  • 卡方

  • 标准偏差

  • 平均值的标准误差

  • 回归

  • 关联

连续数据以连续的比例进行数字描述,可以分解为无限的测量。从理论上讲,精度没有限制。
  • 温度

  • 年龄

  • 重量

  • 时间

  • 长度

  • 意思

  • 中位数

  • 标准偏差

  • 平均值的标准误差

  • 回归

  • 关联


定量变量
变量类型定义数据示例常见的统计检验和摘要
标称(也称为分类数据由单词或类别描述。它们不是数字,不能自动从高到低排名。
  • 颜色

  • 性别

  • 占用

  • 地点

  • 模式

  • 卡方

  • 方差分析

  • 配对t检验

序数(也称为排名数据由单词或类别描述。虽然在可以加或减值的意义上它们不是数字,但是类别可以从高到低排列。
  • 疼痛程度从1(低)到10(高)

  • 莫氏矿物质的硬度

  • 智商

  • 喜欢或不喜欢的程度

  • 中位数

  • 模式

  • 秩和检验

  • 序数logisitic回归

表1.此表包含何时以及如何使用四种最常见类型的变量的示例。


实验系统中相互作用因素的数量如何影响您的实验设计

实验的目标是测量特定变量或变量集对系统的影响。最重要的第一步是坐下来思考所有可能的变量,也称为因子,这可能会对您的结果产生影响。例如,如果您想测试哪些品牌的轮胎A或B在高速公路上行驶时产生最佳的汽油里程,您首先需要确定可能影响汽油里程的所有可能因素。这些因素可能包括:汽车,天气状况,路面类型和汽车速度。一旦确定了所有变量,就可以设计一个公平的测试,让所有变量保持不变,同时只改变一个因子。在这种情况下,您可以更改每个试验车上的哪个轮胎,品牌A或B,但保持所有其他变量相同; 在同一天,同一类型的天气,在同一条道路上,以相同的速度使用同一辆车。这样您就可以评估轮胎品牌的影响。欲获得更多信息,做公平测试:初学者的变量

然而,有时候在更复杂的实验系统中,您需要评估几个相互作用变量对最终结果的影响,或者一次只改变一个因素是非常昂贵或物理上不可能的。让我们回到“哪个轮胎品牌,A或B,在高速公路上行驶时获得最佳汽油里程”的问题?举个例子。上面列出的公平测试可以告诉您在特定条件下,哪个品牌的轮胎为特定汽车带来了最佳里程,即您用于测试的汽车。但是,如果你想要一个更一般的答案来解决哪个轮胎品牌产生最佳里程 - 一个适用于不同的汽车和条件的问题呢?您可能怀疑“最佳”轮胎取决于所涉车辆的类型(小型货车,一辆轿车,或一辆皮卡车),或者轮胎磨损程度如何(新的或经过5,000英里的磨损)。现在,您有三个因素(轮胎品牌,车型和轮胎磨损),这些因素可能相互作用,从而产生不同的结果。例如,轮胎品牌A可能导致皮卡上的汽油里程最高,无论磨损,但在轮胎有5,000英里的磨损后,可能会在轿车上超过B品牌。这个例子中的12个组合(2个品牌×3种车型×2个磨损选项)似乎都可以测试,但是如果你添加了更多的因素,比如气温(低于50°F,50-75°F,或高于75°F)组合总数呈指数增长至36(2 x 3 x 2 x 3),这可能太多而无法单独测试!如果像轮胎那样,您的实验系统依赖于多种因素的相互作用,您需要设计实验,以便您可以使用统计检验系统地评估每个因素的综合和个体效应。有多种实验设计方法可供这种类型的系统评估,包括:正交阵列多元因子分析。实质上,如果实验设计得当,这些技术可以让您一次测试多个因素。有关如何设置和分析这些类型的实验的更多详细信息,请参阅下面参考书目中的参考资料。


每个因素的选择数量

要测试的因素数量
234
1234总数

“公平测试” 
需要
2491625
382764125
41681256625
3224310243125

表2.随着因子的数量和每个因子的选择数量的增加,所需的“公平测试”的数量变得非常大。当您有多个因素和/或每个因素的选择时,有必要使用不同的实验设计,如正交数组或因子分析。

创建良好控制的实验

无论您是在进行实验来评估一个或多个因素,您都需要设计一个控制良好的实验。控件允许您:

  • 在技术层面评估实验是否有效。

  • 通过为您提供比较标准,帮助您解释结果。

  • 防范可能会影响您结果的不可预见的因素。

无论好坏,研究人员以几种不同但相关的方式使用单词控制。表3总结了不同的用法,然后是下面更完整的描述。

使用WordControl简要描述;简介欲获得更多信息
积极控制一个或多个实验样品,从先前的数据中已知,以在实验中给出阳性结果。阳性对照用于确认实验能够给出阳性结果。参见下文
消极控制一个或多个实验样品,从先前的数据中已知,以在实验中给出阴性结果。阴性对照用于确认实验能够给出阴性结果。参见下文
控制组一个实验性试验,其中自变量设定在预先选定的水平,通常是变量的自然状态,以便与所有其他实验试验进行比较。参见下文
受控变量科学家希望在试验之间保持相同的量,以便测量自变量的影响。有时称为常量变量。/

表3.在科学中,单词控制以多种方式使用。此表总结了最常见的用法。

阳性对照用于确定您的实验设计和测试方法是否能够检测您尝试评估的效果。阳性对照由一个或多个实验样品组成,这些样品应在实验中以已知方式表现。如果您进行实验并发现您的阳性对照行为意外,您有理由怀疑实验的有效性。例如,如果您的研究问题是“这个新电路设计是否可以打开灯泡?”,您可能需要确认灯泡是否能够打开。如果被烧毁怎么办?然后新电路总是会给你一个错误的结果(没有点亮的灯泡),即使它能够打开灯泡。避免误报像这样的结果,你需要建立一个积极的控制; 在前面提到的情况下,你想要一个你知道的电路,比如一个值得信赖的灯,它可以用来检查灯泡的功能。

正如使用阳性对照来最小化假阴性在实验中的影响一样,阴性对照用于最小化假阳性的影响阴性对照证实实验程序没有观察到无关的影响。在上面的新电路设计示例的情况下,负控制将确保如果新电路可以打开灯泡,则破坏电路然后关闭灯泡。这排除了存在另一个电源的可能性,可能是您忘记的另一个电路仍然连接,为灯泡供电。

在实验问题比简单的“是”或“否”更复杂的情况下,使用标准来比较测试样本通常也是有用的。标准是特定领域的产品或实践,被统称为运作良好。回到新的电路示例,如果问题不仅仅是新电路是否导致灯泡供电,还有效率如何,那么了解新电路使用的功率量将是有用的。您不仅需要以每小时使用的瓦特数来绝对测量功耗,而且还需要与现场普遍接受的另一种电路设计进行比较,以确保其良好且高效。这个其他电路将成为您表达新电路设计效率的标准。

有些研究问题既没有正面和负面的控制,也没有适用标准。社会学实验或其他您正在调查行为或偏好的研究通常就是这种情况。在这些情况下,使用对照组 与您的测试实验组进行比较通常很重要这种比较有助于确保在更改自变量时看到的更改实际上是由自变量引起的。例如,如果您假设“阿司匹林可以缓解头痛”,那么您希望在您的研究中有两组人。实验组在头痛时服用阿司匹林,不久后回答实验者关于该药是否有助于头痛的问题。对照组服用糖丸代替阿司匹林,并回答实验者提出的相同问题。然后,如果实验组和对照组都报告说服用他们各自的药片减轻了他们的头痛,你就会意识到服用避孕药的简单行为会产生影响,即使它只是一种心理因素,

为了使对照组成为防止不可预见的偏倚的有效手段,对照组和实验组必须尽可能相同。一种方法是将测试对象随机分配给每个组。有关其工作原理的更多参与讨论,请访问Science Buddies页面, 提高实验测量效果的能力

实验中的偏差也可以通过进行盲实验来控制。在盲人实验中,关键信息对参与者保密,以防止意识和/或潜意识偏见。盲目实验有两种类型:单盲和双盲。在单盲实验中,关键信息与测试对象保持一致,但实验者知道一切。在我们上面的阿司匹林示例中,可以通过不向受试者透露他们是否服用糖丸或阿司匹林来进行单盲实验。这可以防止服用阿司匹林的人报告感觉更好仅因为他们预期服用阿司匹林而不是糖丸来帮助他们。如果他们不知道他们服用哪种药丸,心理预期偏见就会被抹去。在双盲实验中,测试对象和实验者都不知道关键信息。只有在收集数据后才会向实验者透露这些信息。例如,如果测试对象和采访测试对象的实验者都不知道谁给了阿司匹林,谁给了糖丸,那么这将是一个双盲实验。优点是实验者,因为他们对自变量一无所知,不能通过做潜意识的事情来偏向测试对象的答案,例如质疑给予阿司匹林的受试者比给予糖丸的受试者更有力。因为它们可以防范更广泛的潜在偏见,所以双盲实验被认为是最科学严谨的; 然而,

参考书目

这些资源提供了有关如何设计实验的其他信息:

有关统计测试和摘要的更多信息,请参见这些在线统计教科书: