刘斌今天又读了这篇文章。作者:张立田,卜清杰,杨桂华,刘秀兰,《环境科学》杂志编辑部,北京100085
刘斌 今天再读这篇文章。
找到了作者:张利田,卜庆杰,杨桂华,刘秀兰
《环境科学学报》编辑部, 北京 100085
在环境科学研究中,经常涉及到描述随机变量的大小、分散和分布特征,以及比较两个或多个随机变量之间的关系。定量描述随机变量和随机变量之间关系的数学工具是数理统计。由于各种数理统计方法的正确运用,关系到能否得出客观可信的结论,,本文对环境科学领域学术论文中常用的数理统计方法(主要是相关分析和回归分析)的正确使用进行了初步分析,以期对人们有所帮助。
在环境科学研究中,经常会涉及到对随机变量大小、离散及分布特征描述以及对2个或多个随机变量之间关系比较的问题。而对随机变量及随机变量之间的关系进行定量描述的数学工具就是数理统计。由于能否正确使用各种数理统计方法关系到能否得出客观和可信的结论,对环境科学领域学术论文中常用数理统计方法(主要是相关分析和回归分析)的正确使用问题进行了初步分析,希望能对人们有所帮助。
1 统计软件的选择
在进行统计分析时,尽管作者可以自行编写计算程序,但在统计软件很普及的今天,这样做是毫无必要的。因此,出于对工作效率以及对算法的可靠性、通用性和可比性的考虑,多数科技期刊都要求作者采用专门的数理统计软件进行统计分析。我们在处理稿件时经常发现的问题是,作者未使用专门的数理统计软件,而采用Excel这样的电子表格软件进行统计分析。由于电子表格软件提供的统计分析功能十分有限,很难满足实际需要,除非比较简单的分析,我们不主张作者采用这样的软件。目前,国际上已开发出的专门用于统计分析的商业软件很多,比较著名有SPSS(Statistical Package for Social Sciences)、SAS(Statistical Analysis System)、BMDP和STATISTICA等。其中,SPSS是专门为社会科学领域的研究者设计的(但是,此软件在自然科学领域也得到广泛应用);BMDP是专门为生物学和医学领域研究者编制的统计软件。目前,国际学术界有一条不成文的约定:凡是用SPSS和SAS软件进行统计分析所获得的结果,在国际学术交流中不必说明具体算法。由此可见,SPSS和SAS软件已被各领域研究者普遍认可。我们建议《环境科学学报》的作者们在进行统计分析时尽量使用这2个专门的统计软件。目前,有关这2个软件的使用教程在书店中可很容易地买到。
2 均值的计算
在处理实验数据或采样数据时,经常会遇到对相同采样或相同实验条件下同一随机变量的多个不同取值进行统计处理的问题。此时,多数作者会不假思索地直接给出算术平均值和标准差。显然,这种做法是不严谨的。在数理统计学中,作为描述随机变量总体大小特征的统计量有算术平均值、几何平均值和中位数等。何时用算术平均值?何时用几何平均值?以及何时用中位数?这不能由研究者根据主观意愿随意确定,而要根据随机变量的分布特征确定。反映随机变量总体大小特征的统计量是数学期望,而在随机变量的分布服从正态分布时,其总体的数学期望就是其算术平均值。此时,可用样本的算术平均值描述随机变量的大小特征。如果所研究的随机变量不服从正态分布,则算术平均值不能准确反映该变量的大小特征。在这种情况下,可通过假设检验来判断随机变量是否服从对数正态分布。如果服从对数正态分布,则可用几何平均值描述该随机变量总体的大小。此时,就可以计算变量的几何平均值。如果随机变量既不服从正态分布也不服从对数正态分布,则按现有的数理统计学知识,尚无合适的统计量描述该变量的大小特征。退而求其次,此时可用中位数来描述变量的大小特征。
3 相关分析中相关系数的选择
在相关分析中,作者们常犯的错误是简单地计算Pearson 积矩相关系数,而且既不给出正态分布检验结果,也往往不明确指出所计算的相关系数就是Pearson 积矩相关系数。常用的相关系数除有Pearson 积矩相关系数外,还有Spearman秩相关系数和Kendall秩相关系数等。其中,Pearson 积矩相关系数可用于描述2个随机变量的线性相关程度(相应的相关分析方法称为“参数相关分析”,该方法的检验功效高,检验结果明确);Spearman或Kendall秩相关系数用来判断两个随机变量在二维和多维空间中是否具有某种共变趋势,而不考虑其变化的幅度(相应的相关分析称为“非参数相关分析” ,该方法的检验功效较参数方法稍差,检验结果也不如参数方法明确)。各种成熟的统计软件如SPSS、SAS等均提供了这些相关系数的计算模块。在相关分析中,计算各种相关系数是有前提的。对于二元相关分析,如果2个随机变量服从二元正态分布,或2个随机变量经数据变换后服从二元正态分布,则可以用Pearson 积矩相关系数描述这2个随机变量间的相关关系(此时描述的是线性相关关系),而不宜选用功效较低的Spearman或Kendall秩相关系数。如果样本数据或其变换值不服从正态分布,则计算Pearson 积矩相关系数就毫无意义。退而求其次,此时只能计算Spearman或Kendall秩相关系数(尽管这样做会导致检验功效的降低)。因此在报告相关分析结果时,还应提供正态分布检验结果,以证明计算所选择的相关系数是妥当的。需要指出的是,由于Spearman或Kendall秩相关系数是基于顺序变量(秩)设计的相关系数,因此,如果所采集的数据不是确定的数值而仅仅是秩,则使用Spearman或Kendall秩相关系数进行非参数相关分析就成为唯一的选择。
4相关分析与回归分析的区别
相关分析和回归分析是极为常用的2种数理统计方法,在环境科学及其它科学研究领域有着广泛的用途。然而,由于这2种数理统计方法在计算方面存在很多相似之处,且在一些数理统计教科书中没有系统阐明这2种数理统计方法的内在差别,从而使一些研究者不能严格区分相关分析与回归分析。最常见的错误是,用回归分析的结果解释相关性问题。例如,作者将“回归直线(曲线)图”称为“相关性图”或“相关关系图”;将回归直线的R2(拟合度,或称“可决系数”)错误地称为“相关系数”或“相关系数的平方”;根据回归分析的结果宣称2个变量之间存在正的或负的相关关系。
相关分析与回归分析均为研究2个或多个随机变量间关联性的方法,但2种数理统计方法存在本质的差别,即它们用于不同的研究目的。相关分析的目的在于检验两个随机变量的共变趋势(即共同变化的程度),回归分析的目的则在于试图用自变量来预测因变量的值。在相关分析中,两个变量必须同时都是随机变量,如果其中的一个变量不是随机变量,就不能进行相关分析。这是相关分析方法本身所决定的。对于回归分析,其中的因变量肯定为随机变量(这是回归分析方法本身所决定的),而自变量则可以是普通变量(规范的叫法是“固定变量”,有确定的取值)也可以是随机变量。如果自变量是普通变量,采用的回归方法就是最为常用的“最小二乘法”,即模型Ⅰ回归分析;如果自变量是随机变量,所采用的回归方法与计算者的目的有关—在以预测为目的的情况下,仍采用“最小二乘法”,在以估值为目的的情况下须使用相对严谨的“主轴法”、“约化主轴法”或“Bartlett法”,即模型Ⅱ回归分析。显然,对于回归分析,如果是模型Ⅰ回归分析,就根本不可能回答变量的“相关性”问题,因为普通变量与随机变量之间不存在“相关性”这一概念(问题在于,大多数的回归分析都是模型Ⅰ回归分析!)。此时,即使作者想描述2个变量间的“共变趋势”而改用相关分析,也会因相关分析的前提不存在而使分析结果毫无意义。如果是模型Ⅱ回归分析,鉴于两个随机变量客观上存在“相关性”问题,但因回归分析方法本身不能提供针对自变量和因变量之间相关关系的准确的检验手段,因此,若以预测为目的,最好不提“相关性”问题;若以探索两者的“共变趋势”为目的,建议作者改用相关分析。
需要特别指出的是,回归分析中的R2在数学上恰好是Pearson积矩相关系数r的平方。因此,这极易使作者们错误地理解R2的含义,认为R2就是 “相关系数”或“相关系数的平方”。问题在于,对于自变量是普通变量(即其取值具有确定性)、因变量为随机变量的模型Ⅰ回归分析,2个变量之间的“相关性”概念根本不存在,又何谈“相关系数”呢?(说明:二元回归可决系数符号用小写r2)
5 显著性水平
相关分析及正态分布检验等均为基于假设检验的统计分析方法。而显著性水平的确定是假设检验中至关重要的问题。显著性水平反映了拒绝某一原假设时所犯错误的可能性。通常,拒绝客观上正确的原假设的几率用α值表示,该值被称为假设检验的显著性水平(Significant level)。α值一般在进行假设检验前由研究者根据需要确定,常用的取值是0.05或0.01。对于前者,相当于在原假设事实上正确的情况下,研究者接受这一假设的可能性为95%;对于后者,则研究者接受事实上正确的原假设的可能性为99%。显然,降低α值可以减少拒绝原假设的可能性。因此,在报告统计分析结果时,必须给出α值。在进行统计分析时,各种统计软件通常在给出检验统计量的同时,也给出该检验统计量取值的相伴概率(即某特定取值及更极端可能值出现的准确概率,用p表示)。p值是否小于事先确定的α值,是接受或拒绝原假设的依据。如果p值小于事先已确定的α值,就意味着原假设成立的可能性很小,因而可以拒绝原假设。相反,如果p值大于事先已确定的α值,就意味着原假设成立的可能性较大,因而不能拒绝原假设。在计算机软件尚不普及的情况下,计算检验统计量并与特定显著性水平的临界值比较是简洁的方法,但在计算机软件很普及的今天,建议直接使用p值进行统计推断,并在结果中给出p,以表达精确错误率。
以二元相关分析为例,相关分析中的原假设是“相关系数为零”(即2个随机变量间不存在显著的相关关系)。如果计算出的检验统计量的相伴概率(p值)低于事先给定α值(如0.05),就可以认为“相关系数为零”的可能性很低, 2个随机变量之间存在明显的相关关系。与相关分析不同,在正态分布检验时,原假设是“样本数据来自服从正态分布的总体”。此时,如果计算出的检验统计量的相伴概率(p值)低于事先给定α值(如0.05),则表明数据不服从正态分布。
在本刊来稿中,作者在描述相关分析结果时常有的失误是仅给出相关系数的值,而不给出显著性水平。这就无法判断2个随机变量间的相关性是否显著。此外,作者在论文中常常用“显著相关”和“极显著相关”来描述相关分析结果,即认为p值小于0.05就是显著相关关系(或显著相关),小于0.01就是极显著相关关系(或极显著相关)。显然,这也是不规范的。在假设检验中,只有 “显著”和 “不显著”,没有“极显著”这样的提法(令人遗憾的是,有些统计软件教程中也有此种提法)。只要计算出的检验统计量的相伴概率(p值)低于事先确定的α值,就可以认为检验结果“显著”(相关分析的原假设是“相关系数为零”,故此处的“显著”实际意味着“相关系数不为零”,或说“2个随机变量间有显著的相关关系”);同样,只要计算出的检验统计量的相伴概率(p值)高于事先确定的α值,就可以认为检验结果“不显著”。因此,不能认为p值小于0.05就是“显著相关”, p值小于0.01就是“极显著相关”。换言之,在进行相关分析时,不能同时使用0.05和0.01这2个显著性水平来决定是否拒绝原假设,只能使用其中的1个。规范的做法是指出在什么α值(0.01或0.05)下是否显著相关并在括号中给出p值。需要指出的是,有少数作者在报告二元相关分析结果时,针对p值大于0.05的情形宣称“2个随机变量有相关性但不显著”。这种说法是自相矛盾的。“有相关性”就意味着“检验结果显著”,“检验结果不显著”就意味着 “不存在相关性”。在二元相关分析中,如果事先确定的α值为0.05,则只要p值大于0.05,2个随机变量之间就不存在相关关系。反之, 如果2个随机变量间存在相关关系,则p值应小于0.05。