Tag Archives: stats

如何计算F检验中效应量的置信区间?

在心理学的论文中,p值似乎已经越来越不受待见,而比较推荐的方法是报告效应量以及其置信区间(Confidence Intervals, CI)。

说起来容易,但真要推广起来,效应却不太好,因为置信区间在心理学界长期受到忽视,并没有太多现成的方法可供选择。但毕竟还有一两位可以称为业界良心的研究者,已经做出一些相对来说可以使用的工具。其中简单粗暴的一款是由Smithson (2001)年提供的脚本程序。

不说原理,只说如何操作。

首先,下载到适合自己的脚本文件。点击这里(好像Smithson的网站已经下载不了,我在osf上放了一个链接:https://osf.io/9v87b/),到Smithson的个人网站上寻找自己合适的文件下载。如果是心理学专业背景的,那么SPSS脚本是比较适合的。可以选择下载如下三个文件:

NoncF.sav     —— 输入数据的文件
NoncF3.SPS  —— 计算CI的语法脚本
F2R2.SPS       —— 进行转换的语法脚本

然后,打开NoncF.sav,出现输入数据的界面:

NoncF

其中,需要输入的变量有四个:

fval    —— F检验中的F值;
df1    —— F检验中第一个自由度;
df2    —— F检验中的第二个自由度;
conf  —— 将置信区间设定为多少,通常是90%;

输入这四个变量之后,将NoncF3.SPS打开,在语法栏里将所有的代码选中,然后点击“run”,结果会址接出现在NoncF.sav文件中(即数据文件),如下图:

NoncF2

结果数据为:

R2 —— 效应量,在ANOVA中相当于partial eta square;
LR2 —— 效应量90%CI的下限
UR2 —— 效应量90%CI的上限;

报告R2的90%CI为[LR2 UR2]即可,至少在Lakens (2013)中是这样说的。

当然,其实t检验的效应量(Cohen’s d)也是要报告置信区间的,据说Geoff Cumming的ESCI是一个不错的选择,待我学习一番之后,再来做个笔记。

 

参考文献:

Lakens, D. (2013). Calculating and reporting effect sizes to facilitate cumulative science: a practical primer for t-tests and ANOVAs. Front Psychol., 4, 863. doi: 10.3389/fpsyg.2013.00863

Smithson, M. (2001). Correct Confidence Intervals for Various Regression Effect Sizes and Parameters: The Importance of Noncentral Distributions in Computing Intervals. Educational and Psychological Measurement, 61(4), 605-632. doi: 10.1177/00131640121971392

 

 

p值的不稳定性

最近社会心理学领域,可重复性问题应该令大家非常心塞的一件事情。虽然直接重复是否真正有用是很有争议的问题,但主流的观点仍然是鼓励重复的。

但是,直接重复采用什么统计指标?这个关键的问题之前都被忽略。一个简单的想法是,直接重复应该重复出原来的效应,即以前显著(p < 0.05 ),重复实验也达到这个显著水平(p < 0.05 )就是重复。

但是p值真的是一个稳定的指标吗?最近Facebook上有研究者转Halsey等(2015)在Nature Methods上的文章,指出其实p值并不稳定。

Facebook上的这个研究者引用了文中的这么一句话:“Many scientists who are not statisticians do not realize that the power of a test is equally relevant when considering statistically significant results, that is, when the null hypothesis appears to be untenable.” 也就是说,显著性检验,是需要与统计检验力一起考虑的。统计检验力低的检验,其零假设检验并不靠谱,p < 0.05也是很不稳定的。

而转引的这个文章,实质上就是解释p值的稳定性问题,即我们在研究中所期望达到 p < 0.05,实际上非常不稳定,抽样的变化就会导致p值的变化。然而,在研究的实践中,我们通常会误解p值的真正意义,一厢情愿地认为p <.05就是有效应的铁证。

从Halsey等(2015)的引文中可以看出,关于零假设检验的争议(p <0.05)以及方法学家们对这个方法提出改进的努力,已经是很久以前的事情了。1994年,Jacob Cohen在The Earth Is Round (p < .05)一文中是如此开头的:After 4 decades of severe criticism, the ritual of null hypothesis significance testing—mechanical dichotomous decisions around a sacred .05 criterion—still persists. 也许,现在我们需要再加上两个十年。

对p值的最大误解就在于,我们认为它是二分的,p < 0.05 就是显著,p > 0.05就是不显著,即使p=0.06与p=0.04其实区别并不大。当年Fisher提出NHST时,是建议将p作为连续的变量来作为参考,但今天大部分研究者却把它当作一种二分变量来使用。

p值的定义是什么?Halsey等(2015)的定义认为,它测量的是反对零假设证据的强度。但是,当统计检验力非常小的时候,p值会变动非常大。在心理学研究中非常常见的是,一个研究的统计检验力之低,完全不足以让人完全其p值会是稳定的。

假定有两个总体,其均值相差为0.5:

 

但是,随机抽样四次,并不能保证每次都出现显著差异的结果:

之所以不同的取样会导致不同的p值,原因在于随机抽样可能抽到的是总体的不同部分,样本之间的差异不稳定。为了得到稳定的效应量,一个可取的做法是采用更大的取样。

下图是不同样本量下,effect size的CI区间,可以看出,即使在80%的power的情况下,effect size也并不是那么稳定。

 

换成p值,这个就会更加明显:当样本量很小,power很低的时候,p< 0.05的的可能性并不多,而当power是94的时候,才会好很多。

作者的建议是,不要单独使用p值,而是使用效应量+效应量的95%CI。

对于重复实验,如果原来研究中的p值就不稳定,那么重复实验p不显著应该也不奇怪了。

Reference:
Halsey, L. G., Curran-Everett, D., Vowler, S. L., & Drummond, G. B. (2015). The fickle P value generates irreproducible results. Nat Meth, 12(3), 179-185. doi: 10.1038/nmeth.3288

再次探索效应量的问题

先前在博客上介绍过如何使用G*power来进行统计检验力分析和计算效应量,当时是自己在实验之前使用G*power估算了一下自己实验所需要的样本量是多少。由于当时的理解并不深,只能算是把G*power操作了一次。

这两天要对实验结果的效应量进行计算和解释,再度对效应量进行了一次探索。这次关注的重点不是统计检验力,因为检验力分析的主要作用是在研究实施之前,进行样本量的估计。当实验已经完成之后,再进行统计检验力的分析已经意义不大。
此 次要分析的数据是2*3被试内设计的结果,这种设计在认知心理学(知觉、注意之类研究)中应该是非常常见。我们最关心的是交互作用的效应量。显著性检验采 用了SPSS中的一般线性模型的repeated measures ANOVA。在输出结果中选择estimated power和effect size,可以看到主效应和交互作用的效应量的一个指标:partial eta square。一般来说,这个结果已经足够了(前段时间在微博上的讨论:http://weibo.com/1758665935 /B08v5zazA)。
但 我们很蛋疼地不太相信SPSS输出的结果,想使用其他方法来验证一下,首选是G*power 3这个软件。在这个软件中,repeated measures, within factors的计算可以使用两种方法:ANOVA approach和MANOVA approach,在Faul, et al. (2007)这个专门关于 G*Power 3的文献中提到,如果是完全的被试内设计,使用repeated measures within factors可以使用ANOVA approach, 把groups 选择为1,但是操作过程中发现,这个说明其实不太足够让你进行一次power analysis。
当 时我使用的是G*power 3.1.2, 一个已经比较老的版本,选择这种方法时,输入的参数中包括了两个measures的相关,当时我就卡住了: 在2*3的交互作用中,什么才算是measures之间的相关。于是使用G*power计算交互作用效应量来进行验证的路似乎就堵死了。
于是,我想回到计算效应量最初的方法上,即partial eta square是如何计算出来的。自己其实以前就从文献中搜寻过这个答案,其实从原理上讲eta square是非常容易懂的:
首先、eta square的统计意义是,一个效应的变异量占总的变异量的比例是多少。所以其计算还得从变量的分解开始,一个两因素被试内设计的变异分解应该是如下:
其次,每个效应都有各自的效应量计算方法(注意,这里已经把eta square变成partial eta square的计算了,因为这个指标更能突出单个的效应):
所以其实可以根据F值很容易地计算出交互作用的partial eta square。但这个公式里没有相关系数出现呀?确实没有,但相关系数应该是包括了在SS的计算之中了(上述的公式可以在诸多的文献中找到,比较清楚的是Bakeman. (2005))。
有上述的公式还不够,我并不想自己来动手算这个效应量。于是再次搜索,找到了一些方法,例先前有人问过类似的问题:
这个网页上提供了两个G*power以外的方法,但都是主要针对被试间设计相关的。直到找到Lakens (2013)这个文献。这个文章主要关注于被试内设计实验的效应是计算,有两点特别有用:
第 一,它指出,SPSS中的 partial eta square与G*power中的partial eta square实际上并不一样,所以要使用SPSS中的partial et square到G*power中去做power analysis,还需要进行转换。一个方法是自己根据公式进行转换,文章附录中有转换公式(但又涉及到两个measurements之间的相关系数的问 题!!);另外一个方法是在G*power的repeated measures: within factors ANOVA approach中进行设置,此页面中有个option的按钮,可以选择输入的partial eta square 类型,其中包括了SPSS式的partial eta square。这时我才发现,G*power 3.1.2版本根据没有那个按钮(呵呵,不经常更新软件你就SB了吧)。重新下载到G*power的最新版本(3.1.9.2)之后,发现了此按键,还发 现repeated measures: within factors ANOVA approach下不需要再输入两个measurements之间的相关系数了,不明觉厉!但似乎挺好。更新后的G*power3.1.9.2表现不俗, 输入参数基本上都可以从SPSS的输出结果中找到,计算得到的效应量和统计检验力也与SPSS中一致。
第二,在这个文献中,Lakens提供了一个excel的表格,可以说是手把手教你如何选择合适的计算效应量的方法。
看了上图之后,经常要做t检验和F检验的同学有没有觉得很幸福?
这个表格自带到各种常见的实验设计的效应量计算方法,绝对值得拥有(下载地址:https://osf.io/ixgcd/)。顺便说一下,作者Daniel Lakens也是Open Science Framework的成员,正在重复好几项研究,他提供的方法都是比较open的。
使 用Lakens的这个excel工具,轻松地计算出了交互作用的partial eta square, eta square和generalized eta square这三个效应量的指标,其中 partial eta square的结果与SPSS中是一致的。
通过三种方法得到一致的结果,终于比较安心了。但接下来是一个更加纠结的问题:效应量的90%置信区间(confidence intervals, CI)是多少?
效应量还有置信区间!!
是的,虽然很少听说,但确实是有的。一般给出的效应量的值,就是通过样本数据,对总体的效应量进行的一个点估计。一般而言,区间估计比点估计给出的信息更加丰富,于是对于效应量也有区间估计的计算。
效应量的90% CI 的原理暂时没来得及看,但目前使用比较多的是两个方法:
第一,Smithson (2001) 提出的方法,其计算的程序使用的是SPSS的代码:http://dl.dropboxusercontent.com/u/1857674/CIstuff/CI.html
第二,Cumming & Finch (2005)提供的方法,主要是他们在一本关于置信区间的一本书中的各种计算:
最近还有一个使用R的MBESS包的计算方法:http://osc.centerforopenscience.org/2014/03/06/confidence%20intervals/
简 便起见,我采用了Smithson (2001)的SPSS代码进行了计算。结果正如Fritz, Morris, & Richler. (2012). 所说的那样,置信区间的效应量包括了从非常微弱的效应到非常强的效应的范围,因此,无法从直观上告诉读者这个效应的效应量是多少。即便如何,有些作者还是 推荐报告这个CI,当然也人并不推荐(见微博讨论:http://weibo.com/1758665935/B08wi1yD2)。
这一次对效应量和统计检验力的探索大约就这些多,再把主要的相关文献列一下。
关于统计检验力最经典的文献来自Jacob Cohen的教科书《Statistical power analysis for the behavioral sciences》,但大家一般会提的文献是Cohen (1992)。
最 近APA杂志JEP: G想大力推行报告效应量,于是有一篇全面的介绍性文献,几乎包括了使用effect size的方方面面:Fritz, C. O., Morris, P. E., & Richler, J. J. (2012);关于效应量的计算:Bakeman. (2005) ,Lakens, D. (2013)。
想对效应量从理论意义上有比较深入的了解?看看这个:Kelley, & Preacher. (2012).
关于为什么要在元分析中使用 generalized eta square而不是partial eta square,见Bakeman. (2005).
还 有一本买不起的教科书:Cumming, G. (2013). Understanding the new statistics: Effect sizes, confidence intervals, and meta-analysis. New York: Routledge.
关于CI的,上面已经给出了相关的文献。
参考文献:
Bakeman. (2005). Recommended effect size statistics for repeated measures designs. Behavior Research Methods, 37(3), 379-384. doi: 10.3758/BF03192707
Cohen, J. (1992). A power primer. Psychological Bulletin, 112(1), 155-159. doi: 10.1037/0033-2909.112.1.155
Cohen, J. (1977). Statistical power analysis for the behavioral sciences (rev: Lawrence Erlbaum Associates, Inc.
Cumming, G. (2013). Understanding the new statistics: Effect sizes, confidence intervals, and meta-analysis. New York: Routledge.
Cumming, G., & Finch, S. (2005). Inference by Eye: Confidence Intervals and How to Read Pictures of Data. American Psychologist, 60(2), 170-180. doi: 10.1037/0003-066X.60.2.170
Faul, F., Erdfelder, E., Lang, A.-G., & Buchner, A. (2007). G*Power 3: A flexible statistical power analysis program for the social, behavioral, and biomedical sciences. Behavior Research Methods, 39(2), 175-191. doi: 10.3758/BF03193146
Fritz, C. O., Morris, P. E., & Richler, J. J. (2012). Effect size estimates: Current use, calculations, and interpretation. Journal of Experimental Psychology: General, 141(1), 2-18. doi: 10.1037/a0024338
Kelley, K., & Preacher, K. J. (2012). On Effect Size. Psychological Methods, 17(2), 137-152. doi: 10.1037/a0028086
Lakens, D. (2013). Calculating and reporting effect sizes to facilitate cumulative science: a practical primer for t-tests and ANOVAs. Front Psychol., 4, 863. doi: 10.3389/fpsyg.2013.00863
Smithson, M. (2001). Correct Confidence Intervals for Various Regression Effect Sizes and Parameters: The Importance of Noncentral Distributions in Computing Intervals. Educational and Psychological Measurement, 61(4), 605-632. doi: 10.1177/00131640121971392

如何使用G*power计算统计检验力


一直比较关注研究中存在的一些方法的问题,而最近学术界里讨论比较多的是研究的统计检验力(power)和样本量的问题(引起争论文章见
这里)。许多争论的结果大多都会指向一个解决方案:对实验进行严格的设计,在实验之前进行统计检验力的估计和样本量计算。那么这实际上可能包括两个步骤:

第一,计算先前实验或者预实验结果中的效应量和统计检验力;
第二,根据统计检验力判断该研究中的效应量有多靠谱,再根据这个效应量计算自己实验需要多大的样本量。
这两步理论上都可以在G*Power中完成。

准备:
软件准备:下载G*power软件(注意,不是宝马的Gpower): http://www.psycho.uni-duesseldorf.de/abteilungen/aap/gpower3/;
知识准备:这里借用一下刘嘉老师曾经讲过的内容(记得不对请指正),在假设检验中,统计模型既定的情况下,有四个参数:alpha值,效应量,样本量和统计检验力。当统计模型确定后(即使用的是t检验,ANOVA抑或是其他检验方法),后面四个参数知道其中三个可以计算出第四个。
如何使用G*power计算统计检验力1
假如我们想计算一个已有研究的统计检验力,根据上面的这个背景知识,计算效应量就得知道alpah值(一般是0.05)、样本量(这个很容易从文章中找出来)和效应量(effect
size)(这个可能需要稍微算一下)
打开G*power之后看到如下界面:
2
如何使用G*power计算统计检验力
点击一下左下方的Determine,右侧弹出一个小窗口,变成如下界面:
如何使用G*power计算统计检验力
3
上面界面中的数字表示如何一步步地点击各个按键来计算。
1 选择进行计算的类型,A priori:…..这个是实验前计算样本量;Post hoc: ….
这个是计算一个已经完成研究的统计检验力。既然是对已经完成的研究来计算统计检验力,那么就选择Post Hoc;
2 在test family里,根据统计方法选择对应的选择,比如就选择t test,然后在Statisitcal
test里选择具体的检验方法:比如配对样本t检验。选择之后出现如下图的界面。
4如何使用G*power计算统计检验力
3 在determine里计算出目前这个研究的效应量。这里根据各个统计方法不同而提供了多种计算的方法。
4 输入计算效应量的信息(注意:t检验和ANOVA中输入的信息不相同),配对样本t检验中,可以differences 和group
parameters来计算,把相应的数字输入。
5 点Calculate,可以看到效应量
6 点Calculate and transfer to
main window,计算出来的效应量值就出现在主窗口的Effect size dz处。
7 输入样本量
8
点击主窗口的Calculate,就计算出了目前研究的统计检验力,在主窗口左下部分。
到这里,就完成了对个研究统计检验检验力的计算(顺便还计算了效应量)。
如果要预测自己下一个实验需要多少样本量,在第一步进需要选择 A priori:….
。由于Cohen大神早就说明,一个统计检验力为0.8及以上的研究才算比较高,所以一般就把power放在0.8。然后,输入其他参数(选定统计方法,输入alpha值,效应量)。最后计算出样本量。
需要指出的是,在方差分析中,每个效应(比如主效应,交互作用)都对应一个效应量,因为其实每个效应都是要单独算的。
PS:这个是土鳖自己的摸索,在国内科研环境下,似乎很少有实验前预先估计样本量的这个环节,所以以上均是理论的东西。自己曾经计算过一个实验主效应所需要的样本量,结果是4个被试就可以达到0.8的检验力。但是我也不敢依此只收集4个被试的数据,因为先前研究中的效应量可能是夸大的。所以,更有经验的人请不吝赐教!

统计检验力和样本量的讨论


最近有一些文章都是关于研究中的样本量的问题(见这个帖子也提到
)。

Friston, Karl. (2012). Ten ironic rules for non-statistical
reviewers. NeuroImage, 61(4), 1300-1310. doi:
10.1016/j.neuroimage.2012.04.018

Friston, Karl. (2013). Sample size and the fallacies of classical
inference. NeuroImage, 81(0), 503-504. doi:
10.1016/j.neuroimage.2013.02.057
(总结性文章)

Ingre, Michael. (2013). Why small low-powered studies are worse
than large high-powered studies and how to protect against
“trivial” findings in research: Comment on Friston (2012).
NeuroImage, 81(0), 496-498. doi:
10.1016/j.neuroimage.2013.03.030

Lindquist, Martin A., Caffo, Brian, & Crainiceanu,
Ciprian. (2013). Ironing out the statistical wrinkles in “ten
ironic rules”. NeuroImage, 81(0), 499-502. doi:
10.1016/j.neuroimage.2013.02.056
Tal Yarkoni: http://www.talyarkoni.org/blog/2 …
nt-on-friston-2012/
还有Nature Review Neuroscience上关于神经科学里统计检验力的一个讨论:
Button, Ioannidis, Mokrysz, Nosek,
Flint, Robinson, & Munafo,
(2013). Power failure: why small sample size undermines the
reliability of neuroscience. Nat Rev Neurosci, 14(5), 365-376. doi:
10.1038/nrn3475
这个文章统计了神经科学里研究的统计检验力,得到的结果:神经科学里的统计检验力相当之低。
随后,有几个人跳出来表示这个问题需要没有那严重:
Ashton. (2013). Experimental power comes from powerful theories
[mdash] the real problem in null hypothesis testing. Nat Rev
Neurosci, 14(8), 585-585. doi: 10.1038/nrn3475-c2

Bacchetti. (2013). Small sample size is not the real problem. Nat
Rev Neurosci, 14(8), 585-585. doi: 10.1038/nrn3475-c3

Quinlan. (2013). Misuse of power: in defence of small-scale
science. Nat Rev Neurosci, 14(8), 585-585. doi:
10.1038/nrn3475-c1
Button, Ioannidis, Mokrys, Nosek, Flint, Robinson,
& Munafo. (2013). Confidence and precision increase
with high statistical power. Nat Rev Neurosci, 14(8), 585-585. doi:
10.1038/nrn3475-c4
一直对这个问题非常感兴趣,但是说实话,几篇文章都读得不太懂。最近又抽时间 专门阅读了一下Button et al., (2013)的这个文章,似乎多了一点点理解。写出来权且当作笔记。
首先是什么问题会导致低的统计检验力。最显明的因素就是样本量少,这个问题也大家非常关心的,因为这直接关系到实际研究的操作,也是我们在研究中可以控制的问题。
另外一个就是效应量很小,这个相对而言就没有那么容易控制了,因为一个实验操作的真正的效应量真正有多大永远是我们想知道的,但是又很少能够得知的。还有其他的因素。
其次,低统计检验力会导致什么问题,或者说低统计检验力的研究为什么不可靠。Button et al.,(2013)主要讨论了三点,层层递进。
1 低的统计检验力意味着研究中报告的效应真实存在的概率是很低的。一个检验力为0.2的研究的统计意义是:如果这个领域有100个真实存在的效应,这个研究只能够发现20个这种效应。
2  一个研究的统计检验力越低,则该研究中报告的显著结果真正反映了真实效应的可能性就越低。这个可能性称为PPV(positive
predictive value)。
3  即使一个检验力很低的研究发现了真正的效应,它也可能夸大了这种效应的量。这种效应的膨胀通常被称为:赢家的诅咒(winner’s
curse)。
 
这个问题是更加值得关注,因为低检验力的研究夸大效应量。而第一个报告低效应量的研究可能只是因为运气。重复研究想要做出这个效应,则需要采用更多的被试量。
   关于效应量鼓胀的问题,见Ioannidis, John P.
A. (2008). Why Most Discovered True Associations Are Inflated.
Epidemiology, 19(5), 640-648。
然后,作者们搜索了神经科学中的元分析文章,统计了神经科学里的检验力。然后,发现神经科学的统计检验力真的不高!
统计检验力和样本量的讨论
统计检验力和样本量的讨论
本来想介绍得更详细一点的,但发现自己的理解还不够透彻,权且当作抛砖引玉吧,望理解更深的滴友来解释一下。
PS:谁在自己非常lucky的时候在乎winner’s curse,
只有在实验总没有效应的时候,到处寻找原因时,开始怀疑前人报告的结果是运气好!嗯,我就是这样的。