高级科学项目的数据分析
Sandra Slutz博士,科学伙伴科学家
Kenneth L. Hess,科学伙伴创始人兼总裁
介绍
无论您的目标是向公众展示您的研究成果还是在科学期刊上发表您的研究成果,都必须严格分析先进科学项目的数据。如果没有仔细的数据分析来支持您的结论,您的科学研究结果将不会被其他科学家认真对待。以下部分讨论了进行全面科学数据分析的技术,技巧和资源。虽然本指南将提到各种数据分析原则和统计测试,但它并不是一本详尽的教科书。相反,我们鼓励您使用本指南作为熟悉数据分析一般原则的方法。一旦熟悉了这些概念,我们鼓励您使用参考书目中列出的参考资料以及个人资源(例如您的导师和其他科学和数学专业人士,包括您的老师)继续探索与您的科学项目最相关的主题。我们也鼓励您阅读我们随附的文章 高等科学课程实验设计 与 提高实验测量能力。当集体使用时,这三篇文章中的信息将使您走上一条经过深思熟虑的高质量研究项目。
关于数据分析的常见错误假设
年轻科学家的三个常见错误是:
只有在收集完所有数据后才会进行数据分析。
数据分析很快 - 您选择分析方法,以“插件”方式应用它们,然后就完成了。
没有额外的背景,数据可以独立存在
这些事情都不可能离真相更远。数据分析是研究项目中的一个持续过程。规划您要对数据执行的分析类型是设计实验的关键部分。如果您跳过此步骤,您可能会发现自己没有足够的数据来得出有意义的结论。有关成功数据分析和良好实验设计如何相互依赖的更多详细信息,请参阅Science Buddies 高级科学项目实验设计指南 。
一旦您设计了实验并进行了实验,即使您正在收集数据,也可以明智地进行一些数据分析,以确保观察结果符合预期参数。例如,您可以在实验过程中计算DNA提取的产量,以确保程序在进行下一步之前运作良好。如果您的实验程序出现问题,这种分析可以防止您浪费宝贵的实验时间,并且可以消除后来对异常数据的混淆。如果来自一个实验重复的趋势或观察结果提供了关于如何更好地设计额外重复的见解,则还应在独立重复之间分析数据。
虽然将数据快速插入电子表格可能很有吸引力,但创建图表,打印出基本的相应统计数据,并将项目称为“已完成”,这种方法可能会导致您错过相关信息。相反,你应该计划花很多时间“玩”你的数据。您测试的变量越多,“播放”所需的时间就越长。通过从各种角度查看数据,尝试不同的方式来组织数据并以数学方式表示数据,您可能会偶然发现在启动项目时您不知道的连接或趋势。
最后,不仅要让您的数据独立,而且要将其置于上下文中,这一点非常重要。简而言之,相对于其他数据表达您的数据更具启发性。例如,日本男子职业篮球运动员身高研究中的数据可能表明球员的平均身高是6英尺5英寸。如果将这个数据与日本男性的平均身高(5英尺7英寸)进行比较,这些数据会变得更有用,因此您可以得出结论,在日本,篮球运动员可能比普通男性高出14%。同样,如果您的研究是对以前工作的复制或对流程的方法改进,那么分析您的数据与以前发布的数据直接比较至关重要。
确定您的领域中的标准以进行数据分析
每个领域都有如何分析数据的标准和规范。正在审查您的研究的研究人员和该领域的其他人将期望您在适当的时候了解并模仿这些标准。这并不是说他们不赞成新的创新或技术 - 只要确保你能够解释分析方法优于传统方法的优势。
您如何总结您所在领域的标准分析技术?最好的方法是仔细查看您所在领域的各种论文。特别注意收集相同类型数据的论文。记下以下内容:
他们如何组织他们的数据,
他们看到了哪些类型的趋势以及他们如何发现这些趋势,
他们使用哪些统计测试来评估数据,以及
p值和/或置信区间被认为是可接受的。
一旦熟悉了您所在领域常见的分析类型,您就可以选择在您的研究项目环境中最有意义的分析。
三种不同的方法来检查数据
一般而言,科学数据分析通常涉及以下三项任务中的一项或多项:
生成表格,
将数据转换为图形或其他可视显示
使用统计测试。
表用于在一个地方组织数据。相关的列和行标题有助于快速查找信息。表的最大优点之一是,在组织数据时,可以更容易地发现趋势和异常。另一个优点是它们的多功能性。表可用于封装定量或定性数据,甚至两者的组合。数据可以原始形式显示,也可以组织成具有相应统计数据的数据摘要。
图表是表示数据的直观手段。它们允许以更容易通过眼睛发现趋势的方式表示复杂数据。有许多不同类型的图表,其中最常见的图表可以在这个图表基本指南中查看: 数据分析和图表。
您可能会将图形视为向其他人呈现数据的主要方式; 虽然图表是这样做的绝佳方式(有关更多细节,请参阅Science Buddies指南,了解有关 高级科学竞赛的数据提示技巧),它们也是一个很好的分析机制。将数据操作为不同的视觉形式的过程通常会引起您对数据的不同方面的关注,并扩展您对它的思考。在这个过程中,您可能会偶然发现一种模式或趋势,这种模式或趋势表明您之前没有想过的关于您的科学项目的新内容。以不同的图形格式查看数据可能会突出显示新结论,新问题或需要去收集其他数据。它还可以帮助您识别异常值。这些数据点似乎与其他数据点不一致。异常值可能是实验误差的结果,如测量工具故障,数据输入错误或实际发生的罕见事件(如蒙大拿州1月70°F天),但不能反映正常情况。在统计分析您的数据时,识别异常值并对其进行处理非常重要(请参阅下面的参考书目,了解如何处理异常值的文章),以便它们不会对您的结论产生不成比例的影响。识别异常值还允许您返回并评估它们是否反映罕见事件以及此类事件是否对您的整体科学结论有所帮助。
如果您不确定哪种图形可能最好地封装您的数据,请返回发布的具有相似类型数据的科学文章。观察作者如何绘制和表示他们的数据。尝试使用相同的方法分析您的数据。
统计是检查数据的第三种通用方法。通常,统计测试与表格和/或图表组合使用。统计数据有两大类:描述性统计和推论统计。描述性统计用于汇总数据,包括平均值,范围,标准偏差和频率等。有关几个基本描述性统计计算的综述,请参阅总结数据和评估方差和标准偏差的一般指南。推论统计依靠样本(您收集的数据)来推断人口。它们用于确定是否有可能根据您的实验数据得出关于人口的一般结论,或者对未来的预测。推论统计涵盖了各种统计概念,例如:假设检验,相关性,估计和建模。
除了平均值,模式和平均值之类的基本描述性统计数据之外,您可能没有太多的统计数据。那么您如何知道要对您的数据应用哪些统计测试?一个好的起点是参考您所在领域的已发表的科学文章。具有相似类型数据集的论文的“方法”部分将讨论作者使用的统计检验。其他测试可能会在数据表或数字中提及。尝试使用类似的测试评估您的数据。您可能还会发现咨询统计教科书,数学教师,您的科学项目导师以及其他科学或工程专业人员非常有用。下面的参考书目还包含一系列资源,用于更多地了解统计数据及其应用。
参考书目
本文讨论了如何选择正确的统计检验:
Windish,DM和Diener-West,M。(2006)。临床医师教育者选择和解释统计检验的路线图。Journal of General Internal Medicine 21(6):656-660。2009年8月25日检索自http://www.pubmedcentral.nih.gov/articlerender.fcgi?tool=pubmed&pubmedid=16808753
这些资源提供了有关如何处理异常值的其他信息:
Fallon,A。和Spada,C。(1997)。正态分布数据集中异常值的检测与适应。2009年8月25日检索自http://www.cee.vt.edu/ewr/environmental/teach/smprimer/outlier/outlier.html
High,R。(2000)。处理'异常值':如何维护数据的完整性。 2011年1月13日检索自http://rfd.uoregon.edu/files/rfd/StatisticalResources/outl.txt
有关统计数据的更多信息,请参见这些在线统计教科书:
麦当劳,JH(2008)。生物统计手册。2009年8月25日检索自 http://udel.edu/~mcdonald/statintro.html
NIST / SEMATECH。(2006年)。NIST / SEMATECH电子统计方法手册。2009年8月25日检索自http://www.itl.nist.gov/div898/handbook/