统计检验力与样本量的计算

统计检验力与样本量的计算

单个研究的统计检验力(statistic power)和样本量(sample size)可能是研究可能会争论比较多的问题之一。低统计检验力可能会引来许多问题,主要的问题就是夸大了单个实验的效应量。

在假设检验中,统计模型既定的情况下,有四个参数:alpha值,效应量,样本量和统计检验力。当统计模型确定后(即用的是t检验、ANOVA抑或是其他检验方法),后面四个参数知道其中三个可以计算出第四个。

假如我们想计算一个已有研究的统计检验力,根据上面的这个背景知识,计算效应量就得知道alpah值(一般是0.05)、样本量(这个很容易从文章中找出来)和效应量(effect size)(这个可能需要稍微算一下)

G*Power 计算样本量

上面界面中的数字表示如何一步步地点击各个按键来计算。

  1. 选择进行计算的类型,A priori:…..这个是实验前计算样本量;Post hoc: …. 这个是计算一个已经完成研究的统计检验力。既然是对已经完成的研究来计算统计检验力,那么就选择Post Hoc;

  2. 在test family里,根据统计方法选择对应的选择,比如就选择t test,然后在Statisitcal test里选择具体的检验方法:比如配对样本t检验。选择之后出现如下图的界面。

  3. 在determine里计算出目前这个研究的效应量。这里根据各个统计方法不同而提供了多种计算的方法。

  4. 输入计算效应量的信息(注意:t检验和ANOVA中输入的信息不相同),配对样本t检验中,可以differences 和group parameters来计算,把相应的数字输入。

  5. 点Calculate,可以看到效应量

  6. 点Calculate and transfer to main window,计算出来的效应量值就出现在主窗口的Effect size dz处。

  7. 输入样本量

  8. 点击主窗口的Calculate,就计算出了目前研究的统计检验力,在主窗口左下部分。 到这里,就完成了对个研究统计检验检验力的计算(顺便还计算了效应量)

如果要预测自己下一个实验需要多少样本量,在第一步进需要选择计算先验power: A priori:…. 。由于Cohen大神早就说明,一个统计检验力为0.8及以上的研究才算比较高,所以一般就把power放在0.8。然后,输入其他参数(选定统计方法,输入alpha值,效应量)。最后计算出样本量。

这些问题基本上都可能源自于审稿中的一个:你是如何确定你现在这篇文章中的样本量的?当然,这个问题可能有几个变式:你的样本似乎有点小,不足以说明你的效应稳定;你是如何选择这么多被试的;或者“我建议作者重复自己的实验或者增加样本量”。

简单来说,如果你的统计功效为50%,那么你做一次实验的话,有50%的可能得到p < 0.05,50%可能得到p > 0.05。所以假如你的实验的统计功效为50%,怎么能够说明审稿人你得到这个结果不是运气?你可能会说,我已经得到一个非常“显著”的结果,P = 0.001,我用Gpower算了统计功效,非常好啊,已经超过80%了!但问题是,这里的后验的统计功效,其计算是根据你现在实验估计出来的效应量来计算统计功效。如果你的样本量很小,并且得到了P = 0.001的话,那么你计算出来的效应量是非常大的(inflated),而根据这个夸大的效应量的计算统计功效的话,那必然是非常好的。所以这是为什么审稿人不会认同事后的统计功效。

为什么审稿人想要知道你是如何选择现在的样本量的?我个人的理解是:审稿人本质上是关注你这个研究的效应是否稳定,也就是你通过这个实验对某一个现象的效应量进行的估计是否靠谱。

再次强调,不管你决定使用固定样本量的策略,还是动态样本量的策略,一定要提前预注册你的方法,否则,很有可能审稿人不会相信你。毕竟,提前注册已经变得非常简单了,见极简的提前注册指南,英文版:OSF | HowToPreregister.pdf。

https://www.bilibili.com/video/BV1Tb411J7Sm?p=1

Yuan Bo 袁博
Yuan Bo 袁博
Associate Professor of Psychology (Social Psychology)

My research examines the nature and dynamics of social norms, namely how norms may emerge and become stable, why norms may suddenly change, how is it possible that inefficient or unpopular norms survive, and what motivates people to obey norms. I combines laboratory and simulation experiments to test theoretical predictions and build empirically-grounded models of social norms and their dynamics.

comments powered by Disqus