统计检验力与样本量的计算
统计检验力与样本量的计算
单个研究的统计检验力(statistic power)和样本量(sample size)可能是研究可能会争论比较多的问题之一。低统计检验力可能会引来许多问题,主要的问题就是夸大了单个实验的效应量。
在假设检验中,统计模型既定的情况下,有四个参数:alpha值,效应量,样本量和统计检验力。当统计模型确定后(即用的是t检验、ANOVA抑或是其他检验方法),后面四个参数知道其中三个可以计算出第四个。
假如我们想计算一个已有研究的统计检验力,根据上面的这个背景知识,计算效应量就得知道alpah值(一般是0.05)、样本量(这个很容易从文章中找出来)和效应量(effect size)(这个可能需要稍微算一下)
G*
Power 计算样本量
上面界面中的数字表示如何一步步地点击各个按键来计算。
选择进行计算的类型,A priori:…..这个是实验前计算样本量;Post hoc: …. 这个是计算一个已经完成研究的统计检验力。既然是对已经完成的研究来计算统计检验力,那么就选择Post Hoc;
在test family里,根据统计方法选择对应的选择,比如就选择t test,然后在Statisitcal test里选择具体的检验方法:比如配对样本t检验。选择之后出现如下图的界面。
在determine里计算出目前这个研究的效应量。这里根据各个统计方法不同而提供了多种计算的方法。
输入计算效应量的信息(注意:t检验和ANOVA中输入的信息不相同),配对样本t检验中,可以differences 和group parameters来计算,把相应的数字输入。
点Calculate,可以看到效应量
点Calculate and transfer to main window,计算出来的效应量值就出现在主窗口的Effect size dz处。
输入样本量
点击主窗口的Calculate,就计算出了目前研究的统计检验力,在主窗口左下部分。 到这里,就完成了对个研究统计检验检验力的计算(顺便还计算了效应量)
如果要预测自己下一个实验需要多少样本量,在第一步进需要选择计算先验power: A priori:…. 。由于Cohen大神早就说明,一个统计检验力为0.8及以上的研究才算比较高,所以一般就把power放在0.8。然后,输入其他参数(选定统计方法,输入alpha值,效应量)。最后计算出样本量。
这些问题基本上都可能源自于审稿中的一个:你是如何确定你现在这篇文章中的样本量的?当然,这个问题可能有几个变式:你的样本似乎有点小,不足以说明你的效应稳定;你是如何选择这么多被试的;或者“我建议作者重复自己的实验或者增加样本量”。
简单来说,如果你的统计功效为50%,那么你做一次实验的话,有50%的可能得到p < 0.05,50%可能得到p > 0.05。所以假如你的实验的统计功效为50%,怎么能够说明审稿人你得到这个结果不是运气?你可能会说,我已经得到一个非常“显著”的结果,P = 0.001,我用Gpower算了统计功效,非常好啊,已经超过80%了!但问题是,这里的后验的统计功效,其计算是根据你现在实验估计出来的效应量来计算统计功效。如果你的样本量很小,并且得到了P = 0.001的话,那么你计算出来的效应量是非常大的(inflated),而根据这个夸大的效应量的计算统计功效的话,那必然是非常好的。所以这是为什么审稿人不会认同事后的统计功效。
为什么审稿人想要知道你是如何选择现在的样本量的?我个人的理解是:审稿人本质上是关注你这个研究的效应是否稳定,也就是你通过这个实验对某一个现象的效应量进行的估计是否靠谱。
再次强调,不管你决定使用固定样本量的策略,还是动态样本量的策略,一定要提前预注册你的方法,否则,很有可能审稿人不会相信你。毕竟,提前注册已经变得非常简单了,见极简的提前注册指南,英文版:OSF | HowToPreregister.pdf。