标准差(Standard deviation, SD 或 σ)能反映一个数据集的离散程度。简而言之,它是数据集中各个点与平均值的距离。标准差低则代表数据集当中的值接近均值。标准差高则有时表示数据中存在异常值(或非常极端的度量单位造成的)。
标准差高不一定不好,标准差低也不一定更好。这是因为标准差本身不会体现任何有关数据质量的信息,只会揭露它们之间的差异性以及其相对于平均值的差异。人们在使用标准差时最常犯的错误是将其与标准误混淆。
标准差 (Standard deviation, SD) 与标准误 (Standard error of the mean, SEM)
要了解标准误,重要的是要了解总体和样本之间的差异。总体包括某个群体的每个成员,而样本仅代表总体中的少数成员。当进行实验时,很可能会从样本中收集数据并使用它来推断有关于整个总体的详细信息。而标准误就是用于阐明样本的平均值与真实平均值(即总体平均值)的接近程度。要找到标准误,就需要将标准差除以样本量大小的平方根。因此,随着样本量变大,标准误变小,样本的平均值越来越接近真实平均值。相反,标准差和样本量大小无关。
而要了解使用哪种统计方式,则首先要考虑的是你要使用什么样的数据去说明什么问题。如果要揭露数据的离散程度,请使用标准差。如果想揭露取样的准确性,请使用标准误。
核心要点:
-
标准差不能为负且几乎都大于零。
-
标准差要使用与测量变量相同的单位。
-
要时刻指明您使用的是标准差还是标准误。在期刊论文中表示标准差时,请写成“mean (SD)”而不是“mean ± SD”。但是,您可以写成“mean ± SEM”。
-
标准差不适用于偏态分布的数据。考虑使用箱线图代替。
-
除偏态分布的数据外,在任何分布中95% 的数据都落在距均值的距离为2倍标准差范围内。
要时刻了解到是否正确使用了标准差并没有那么容易。除了语言问题,爱思唯尔作者服务同样可以解决常见的统计错误,以及从撰写文章开始到最终发表之间的整个过程中可能需要的任何其他问题。
体验微信小程序,更可以在提交详细信息以获取报价时获取折扣券。
屏幕方寸间,服务更懂你。
图片来源: Shutterstock
参考资料:
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4452664/
https://pubmed.ncbi.nlm.nih.gov/33402813/
https://www.simplypsychology.org/boxplots.html
https://pubmed.ncbi.nlm.nih.gov/16223828/
爱思唯尔是全球领先的信息分析公司,帮助科学家和临床医生发现新的答案、重塑人类知识并应对最急迫的人类危机。140年来,我们携手全球科研界,管理和验证科学知识。并将这种严谨标准延续到了我们今日新一代的信息平台。爱思唯尔在战略研究管理、研发表现、临床决策支持和专业教育领域提供数字化解决方案和工具,包括ScienceDirect、Scopus、SciVal、ClinicalKey 和Sherpath。爱思唯尔出版超过2700部数字化期刊,如The Lancet《柳叶刀》和Cell《细胞》, 42000多种电子书籍以及诸多经典参考书,如Gray’s Anatomy《格氏解剖学》。爱思唯尔是励讯集团(RELX)的成员之一,励讯集团为全球专业人士和商业客户提供科学、医疗、法律和商业领域信息分析服务及解决方案。更多信息,欢迎访问爱思唯尔中文官方网站:www.elsevier.com