当我们谈“可重复性”的时候我们在谈什么?

此文是我在自己的微信公众号上的一篇文章,本意是在记录一下自己对于可重复性(reproducibility)的理解。原文见这里。欢迎关注本人公众号Brainclimber:

qrcode

 

最近看到了讨论科研中可重复性问题的视频(不仅是心理学),其中Brian Nosek提到了可重复性(reproducibility)的几层含义(23:45’到25:30′)。我觉得非常有意思,这也是我们在讨论可重复性时因为篇幅的限制而未讨论的问题[见引文],所以正好在展开说一下。

这个视频是一次关于可重复危机的讨论。在这个视频中,Brian谈到了四层不同的reproducibility,以下是我自己对这四层的可重复性的理解,建议看原视频(点击原文链接可观看):

第一层:再现原论文中的结果。即使用相同的数据,相同的分析方法,是否能够得到相同的结果。这一层是最容易实现的,基本上只要公开数据和分布方法,我们就可以得到跟原论文一样的结果。但从目前科研界的主流做法来看,这一点并没有那么容易实现,因为大家基本上只是发表论文,并不公开原始数据,也不公开分析数据的过程。也正是由于不需要公开数据分析的过程,不少研究者靠GUI,手动点击完成数据分析(比如SPSS和Excel)。这样造成的后果就是,论文发表之后,作者本人也不一定记得自己当时是如何分析的了。所以从这个角度来,目前许多关于可重复性问题的解决方案,是在试图解决这个问题,比如Rmarkdown的使用;

第二层:再现原论文中的结论。也就是说,仍然使用原论文的数据,告诉你研究的问题和假设,让你去分析,看看你是否能够得到相同的结果和结论。这一点上就比较有意思了。理论上讲,各种方法应该得到相同的结果,但实际上,Brian他们目前正在做的一个研究显示并非如此:招募世界范围内不同的研究者,给他们一批数据和研究假设,让他们采用自己擅长的方法去分析。结果不同研究小组分析的结果差异很大,因此结论也不尽相同。从这个角度来讲,研究者在数据分析的过程中,自由度还是太大,可操作的空间太大,于是数据最终可能是朝着符合研究者预期的方向得到结果;

第三层:使用与原论文相同的方法和材料,看看是否能够得到原论文的结果。前段时间Replication Project: Psychology所做的工作是这一层的重复。这种重复也叫做直接重复(direct replication)。当然,直接重复面临着不少的批评,因为直接重复的过程中,可能会忽略不少的细节,有可能这些细节才是关键的,而原研究者甚至都没有意识到。所以不少研究者发现自己对其他人的研究进行直接重复时,即使失败,也会不立刻怀疑原研究,而是首先从自己的研究过程找问题。但是仅仅看论文确实是很难精确复制原实验的过程,这个问题Brian在视频中也说了;

第四层:使用与原论文不同的材料和方法,仍然得到原论文的结论。我理解的这个就是心理学中常用的概念重复(conceptual replication)。比如为了证明刻板印象启动是有效的,第一个实验启动老年的刻板印象,第二个启动婴儿的刻板印象,第三个启动嬉皮士的刻板印象,都发现了与刻板印象一致的行为表现,于是证明了刻板印象启动是有效的(婴儿和嬉皮士是我瞎编的)。这种方法在过去的研究中经常出现,Stapel也说他的结论被conceptual replicated。这个意义上的重复也是重复,但可能没有直接重复那么能力有力地证明原研究的效应确实是存在的。

这四层可重复性还只是一种观点,还可以讲方法可重复性、结果可重复性、推论可重复性等,可以参考 Goodman, S. N., Fanelli, D., & Ioannidis, J. P. A. (2016)在Science Translational Medicine上对这个问题的讨论。

此外,关于reproducibility,这个概念最早是由做计算和统计这一块的人提出的,由于他们的工作涉及到海量的运算,可能有大量的代码和脚本,一个人是否能用使用代码完全再现另一个分析,就是最原始的reproducibility的意思。这是我对Roger Peng在Coursera上关于reproducible research一课上讲到内容的理解(如果有误,那得怪我)。对这个问题感兴趣的话,可以上coursera上免费注册和学习这个课程:https://www.coursera.org/learn/reproducible-research。

最后的最后,reproducibility并不是心理学这个领域特有的问题,比如Science在2011年讨论reproducibility的时候,完全跟心理学没有关系:http://science.sciencemag.org/content/334/6060。

参考文献:

Goodman, S. N., Fanelli, D., & Ioannidis, J. P. A. (2016). What does research reproducibility mean? Science Translational Medicine, 8(341), 341ps312-341ps312. doi:10.1126/scitranslmed.aaf5027

胡传鹏, 王非, 过继成思, 宋梦迪, 隋洁, 彭凯平. (2016). 心理学研究的可重复性问题:从危机到契机. 心理科学进展, 24(9), 1504–1518 doi:10.3724/SP.J.1042.2016.01504

如何安装与使用statcheck工具包

2016.09.23更新:statcheck的作者发布了一个manual:http://rpubs.com/michelenuijten/202816

2016.10.21更新:statcheck发布了在线版:http://statcheck.io/

7月23号,psych sci的主编在自己的twitter上发推说目前psych. sci.正在测试使用statcheck工具包。

1136305613@chatroom_1469402433752_40

对于不少人来说这可能并不奇怪,因为这个工具包早就已经公布出来,能够快速地检查一篇论文中统计量是否有错误,比如F值与后面的p值是对应。这个软件的好处在于它可以检查出由于手动输入造成的错误。一经发布,得到了广大的好评。

statcheck的官网:https://mbnuijten.com/statcheck/;这个页面有教大家如何安装,当然还有另一个教大家如何使用的博客(需要翻墙)

以下是我在window 10下面进行安装和测试的结果。

第一:下载R和Rstudio,并且安装好;

第二:下载 Xpdf 并且解压(下载地址:http://www.foolabs.com/xpdf/download.html),可以选择把这个解压后的文件移动到一个存放软件程序的路径(比如我就是C:/Programfiles/xpdf)。

第三:将Xpdf添加到系统的environmental variable里,右击 this pc (此电脑) –> Properties  –> Advanced system settings –> environmental variable. 在User variable 里编辑Path,如果没有Path, 自己新建一个,把Xpdf的路径放进去。

(第二步和第三步就是安装Xpdf,其功能是将pdf转化为txt进行读取,具体安装可以看这个pdf

安装好了之后,打开Rstudio,安装statcheck这个工具包(>>后面接的是代码,如果复制的话,不要把>>也复制到R里去了):

>> # install and load statcheck

>> if(!require(statcheck)){install.packages(‘statcheck’)}

 

然后打开这个工作,使用它来检查:

>> library(statcheck)

>> checkPDF(“C:/Users/Daniel/statcheck/Zhang2015.pdf”)

如何一切正确的话,你的Rstudio里就出输出检查出来的结果,比如:

5D28.tm

值得一提的是,并不是所有的pdf都能够读出统计值 ,至少我看了两篇APA的文档可能就无法进行检查。

如果对statcheck本身有兴趣,可以查看一下原文

为了避免麻烦,我直接把Xpdf的winow版本和Lakens提供安装英文手册使用云盘共享,链接:http://pan.baidu.com/s/1kVrpWzX 密码:rpe4;下载statcheck压缩包即可。

HDDM的安装与使用

HDDM(Hierarchical Drift Diffusion Model),是一个用来估计drift diffusion model参数的python工具包,具体的介绍见官网:http://ski.clps.brown.edu/hddm_docs/。
当然,这个网站上也写了如何安装,但对于不太了解python的人来说,可能会有点周折。以下是我在window上安装的过程。

1 下载和安装Anaconda,这个软件是集合了python以及一些其他工具包的软件,Anaconda与python的关系,有点像Rstudio与R的关系。安装好Anaconda之后,会有不少可以打开的窗口,包括spyder, iPython, anaconda prompt, Jupter Notebook等,个个都可以打开,可以输入命令。但是主要用两个就可以anaconda prompt(这个是shell)和spyder(这个是集合了代码与iPython)。与R不同的是,R安装工具包与输入命令是一个地方,python却是要分开。

2 找到shell (开始–> 程序–> Anaconda –> anaconda command prompt) ,输入
conda install -c pymc hddm

当然,你有可能会失败,如果你把Anaconda安装在系统盘的话,win7以上的系统都会要求你有管理员的权限才能安装,所以你必须使用管理员模式运行Anaconda command prompt才行。

还有一点需要说明的是,python 有一个2.7的版本和3.5的版本,两个的区别不大,但是有些小细节上有明显差别,比如使用function是否要加括号。2.7里是不用加括号的,一般开始的第一行代码总是

print “Hello, World”

但是在3.4版本里,要让python输出 Hello, world, 你就得输入

print (“Hello, world”)

看别人代码的时候碰到错误时,可以先检查是不是由于版本的差异带来的错误。
OK,安装起来很简单,接下来就可以按照教程来跑一跑他们的教学数据了。

#心理学的可重复危机 (replication crisis) # 是如何形成的

2016.04.09修订:更正了OSF最初形成的时间。此外,关于心理学可重复的问题,有一个网站非常好以时间线的方式展现了一些重要的事件,有兴趣可以围观:Replication in Psychology: A Historical Perspective

记得前一段时间,物理学的引力波刷爆朋友圈和微博的时候,一位师兄如此感叹:

0

对的,上个大新闻就是心理学的研究,遇到了重复危机;没想到的是,下一个大新闻,就是另一些心理学家在science发表文章说,心理学的研究没有重复危机。不管到底有没有重复危机,反正英文的可重复危机(replication crisis)已经成为了wiki peida的词条

当然,即使facebook和twitter上关于可重复危机的讨论在心理学家之间已经吵翻了天,在国内也很见到讨论。作为一个万年酱油党,对这个领域的“热点”还是一直在关注。大约四五年前,也曾与人争论,心理学的研究到底是否可靠,也曾以问答的形式,介绍了当时刚刚“兴起”的可重复危机。几年之后,再来看这个问题,发现这个问题不仅没有解决,反而引起了一波又一波更大的争议和骚动。在心理学家之间,甚至引起了人身的攻击(言语上的)。这是我作为一个想要进入心理学学术界的年轻人所没有想到的。

即然有问题,或者说很大一部分人觉得有问题,那么,这个问题到底是什么,如何解决这个问题,就成为了这个领域的必须去面对的。诚然,如许多人所提到的,可重复危机不是心理学一个领域的问题,许多其他领域也存在。但是,记得某位心理学家(忘记了出处和原话):心理学是我们(心理学家)所唯一拥有的。所以,知道其他领域同样存在可重复的问题,并不能是我们忽视这个问题的原因。

可重复性问题到底是从何时开始的?作为一个喜欢追踪文献的博士狗,“有幸”在这个危机开始的时候,围观了一系列在science和nature上被报道而引起广泛关注的事件,在这里把个人所了解的相关事件作一个回顾。

事件1:Bem (2011)的预见未来的实验。在这个标题为“Feeling the future”的文章中,已经是知名社会心理学教授的Bem在人格与社会心理学的顶级期刊Journal of Personality and Social Psychology上指出:通过9个实验,包括了1000多名被试,他发现了未来发生的事件,可能会影响到被试当前行为反应。在这个颇具有预见性的讨论中,他讨论了统计方法、可重复性和这种预见未来现象的问题。当然,心理学界的人很快提出了质疑,两个研究小组采用贝叶斯统计对他的数据进行了分析,表明无法从数据中得到这个推断。更加晚一些重复实验也没有发现Bem的这个结果。此时,人们还无法预知,这个事件将成为心理学可重复危机的一部分。science此时也只是用相当平淡的口吻给了一个评论:ESP paper rekindles discussion about statistics

事件2:到2011年年末,另一重磅事件,彻底让人们开始反思心理学中方法的严谨性了。这就是Stapel的论文造假事件。Stapel本人是荷兰Tilburg University社会心理学的教授,刻板印象方面的专家。2011年4月8号,也就是五年前的今天,他在science上发表一篇题为 “Coping with Chaos: How Disordered Contexts Promote Stereotyping and Discrimination”的论文。这对于当时的我来说,实在是太有趣了:凌乱的环境居然会加重人们的刻板印象,太神奇了!对于这种有趣的研究,我很快在心理学与脑科学的论坛52brain.com上进行了传播。但是到了2011年11月01日,Nature报道,Stapel的这篇论文涉嫌造假,标题是“Report finds massive fraud at Dutch universities”,而Science也撤回了此论文(2011.12.02)。此后,nature 和science都对这个事件进行了持续的关注。Stapel之所以能够被发现是数据造假,是因为他的研究生举报(想想如果没有研究生举报,他会继续作假到什么时候?)。而Tilburg于2012年12月的调查报告显示,在他职业生涯中发表的137篇论文中,有55篇数据完全是捏造的。此外,还包括他指导的10个博士生博士毕业论文中的数据。在另外10篇论文中,当时还无法断定是否有造假行为。Science在报道这个最终报告的时,提出一个事实:整个心理学领域都有无法推脱的责任(Final Report on Stapel Also Blames Field As a Whole),因为Stapel的55篇数据造假的论文中,审稿过程中完全没有发现问题。而这并不是说审稿的过程是无法发现问题的,因为在2012年,宾大沃顿商学院的Uri Simonsohn通过对Smeesters已经发表的两篇论文结果进行了仔细的检查之后,怀疑作者的数据有问题,随后Smeesters所在的大学对其进行了调查,Smeesters声称自己由于某些客观原因,原始数据丢失,但是其所在大学无法接受他的这个理由,接受了其辞职(见science的报道)。

事件3:还是回到2011年,Simmons, Nelson, & Simonsohn 在psychological science上发表了一篇名为False-Positive Psychology的论文,在这个论文中,指出了心理学研究中,有一些比较常见的做法会让整个领域的假阳性过高。不过这个文章仅在学术界引起了一些关注,媒体的报道相对较少。也是这一年,Virginia University的Brian Nosek在google group里成立了一个叫做open science framework的讨论组,11月7日发起一个倡议,建议对20008年发表的研究进行大规模的重复,这应该就是后来的Open Science Framework的萌芽。

事件4:2012年1月,无法重复的启动研究。在中国的农历尚未到2012年之时,社会心理学的社交网络圈爆发了一个新闻:著名的老年启动效应无法重复出来。记得在哈佛的幸福课(positive psychology)中,讲课的老师就引用过这个研究,让我印象深刻:当大学生看到一系列老年相关的词汇之后,他们走出实验室的速度会变慢,也就是说,变得更像老年人…….。当时我并没有特别在意这个研究。但是2012年1月,开源杂志Plos One发表了Doyen等人一个研究,声称无法重复出这个著名的效应。他们做了两个实验,第一个实验完全重复Bargh等人的实验,第二个则对参与实验的人进行了某种暗示,再现了这个效应。对于这个结果,科普作者Ed Yong进行了报道,并且开头引用了心理学教科书中著名的历史安全“聪明的汉斯”的故事,暗示原作者们Bargh等在方法上的严谨性。正常情况下,这种无法重复的原因多种多样,对于批评可能也无需太在意。但是Bargh作为自动化加工(automatic process)方面的权威,面对这个研究和报道,表示非常愤怒,在自己的博客上进行了激烈的反击,对重复实验的作者、发表重复实验的杂志以及报道这个重复实验的科普作者进行抨击,语言比较激烈,后来删除了该博客(可以从这里这里找到当时其他博客上的一些引用)。正如其他信息的传播一样,客观理性的内容往往很难引起注意,但是充满情绪的内容总是非常广泛地传播,于是Bargh的博客在社会心理学家之间传播开来。

Bargh这个博客引起广泛争议的同时,应该说是再次让社会心理学家们感受到了可重复问题的压力。于是一个原本不太受到关注的网站进入了大家的视野,这就是http://psychfiledrawer.org/。这个网站的目的是让心理学家把自己未发表的数据上传,以减少在论文发表中对阳性结果偏爱而阴性结果无法发表的这个问题。原本没有人多少人关注这个网站,但是Bargh事件之后,许多人纷纷把自己重复过的数据上传。更有意思的是,诺贝尔经济学奖得主卡尼曼也站出来说话了。在题为“A proposal to deal with questions about priming effects”的邮件中,他老人家让社会心理学家解决自己领域的问题。这个邮件内容也有不少的阅读者。

事情发展到2012年,越来越多的重复失败结果被曝光,要么是在一些网站上公开数据,要么是在一些学术期刊上发表。而对于Bem预见未来的实验,也有重复实验的报告在plos one上发表出来。Michigan大学Lawrence Sanna辞职,原因是Simonsohn怀疑他的数据有问题,nature进行了报道。心理学家也开始讨论怎样的重复才能算是一个合格的重复实验。于是有了预先注册(pre-register)、然后按照注册的方法进行实验,最后来报告结果。perspectives on psychological science上,也有专刊来讨论可重复性的问题,这一次非常集中地讨论了与可重复性相关的问题。同样重要的是,2012年,John等人关于可疑研究操作(Questionable Research Practices)的调查报告发表,心理学家们承认,自己在研究的实践中,一些通常的做法其实是大大地增加了假阳性的概率的。

同样是2012年,科普作者Ed Yong回顾了一系列事件之后,认为在社会心理学领域存在着可重复危机,这一报道在nature上以Replication studies: Bad copy为题,作为新闻发表。

直到2013年1月,Center for Open Science(COS)正式在Virginia University成立,成为心理学家组成的非正组织来应对这次可重复危机。COS整合了在此之前已经搭建的开放科学框架的平台(open science framework: osf.io/),开始组织全世界的心理学家进行联合的大规模重复实验。这一年,perspectives on psychological science再次组织特刊讨论了可重复性以及一些实验方法上的问题。这一期中,Lebel将PsychDisclosure.org推出,提出了研究者要完整报告自己研究的方法部分的要求。

2014年,关于重复实验应该如何做,研究者们基本上有一些共识,许多杂志开始鼓励提前注册的重复实验或者提前注册。osf进一步完整,成为一个可以公开注册研究和分享数据的平台。Journal of Experimental Social Psychology上,发表了题为The Replication Recipe: What makes for a convincing replication?的文章。这一年,在social psychology这个杂志5月的一期中,也发表了一系列经过提前注册过的重复研究,能够重复原先实验结果的并不多。不过一个比较积极的消息是,由Klein等人发表的多实验室项目(ManyLab)中,对心理学中经典研究的重复,大部分是有结果的。Cumming 也在psychological science上发表了题为The New Statistics: Why and How的文章,指出需要在统计方法上进行变革。Psychological science也改变了其审稿的政策,对方法部分不再有字数的限制,开始启用一些强制政策来加强方法部分的严谨性,如要求像Lebel指出的那样报告方法部分四个方面的内容,使用效应量和置信区间等。其他的杂志也有一些相应的调整。

不过值得注意的是,2014年5月,剑桥心理学家Schnall在其博客上表达了Social psychology上发表的对她2008年重复研究的不满,认为做重复研究的人是Bully,Dan Gilbert也在Twitter上表达了对进行重复研究的人的愤怒。平心而论,热衷于做重复实验的人,确实在对原研究的态度上不太好,在facebook和twiiter上有许多嘲讽。

2015年,最大的事件就是COS于2013年组织的大规模重复实验的结果得以发表,许多人期待的结果在Science上发表,其结论是对100项研究的重复,大约39%能够重复出来(根据对重复的标准不同,这个比例有一点变化)。这个研究的结果有大量的数据在osf.io上共享,供研究者去挖掘,而确实也有不少研究者利用这些数据进行了后续的分析。还有一些其他的重复报告也发现先前的一些效应无法重复,如孤独会让人洗热水澡的重复权力姿势(power pose 。许多人以为,可重复危机基本上就已经确定了,心理学要开始进行艰苦卓绝的方法变革,来提高本领域研究的可重复性了。但是

2016年3月,Science上的一个评论再次引起争议,Gilbert等人分析了COS大规模重复实验的数据,认为三个方面的错误使得他们的不足以得到心理学研究的可重复率只有39%的结论。这一评论再次激起了Nosek等人的回应、博客上的论战以及媒体的报道。然而,这些评论与争议,也无法改变另一个非常著名的心理学效应在重复实验前的倒下:自我损耗(ego-depletion)的重复实验也未能重复出其效应,而元分析也显示了相似的结果。这个失败让笼罩在心理学家头上的乌云更加密布,因为这个理论非常符合直觉,大量的心理学家投入时间和精力研究这个问题,大量的研究经费投入在这个问题的研究之中。不是一个人的问题,而是一群人的问题!

self_depletion

 

 

 

 

 

 

 

 

心理学研究领域到底有没有可重复危机?目睹了从2011年Bem事件到现在的自我损耗实验的重复失败,我本人对目前心理学论文中的结果和结论非常没有底气,对于原本不该质疑的,也开始质疑了。最近,Journal of Experimental Social Psychology在准备一期特刊,讨论如何去应对这些问题,其中自我损耗理论的提出都Baumeister发表一个评论,也引起了广泛的讨论。

看到这些已经在学术界有一定地位人相互之间的争论,对于刚入门的年轻研究者来说是最痛苦的。应该如何做研究?这是一个问题。

 

参考文献

Bem, D. J. (2011). Feeling the future: Experimental evidence for anomalous retroactive influences on cognition and affect. Journal of Personality and Social Psychology, 100(3), 407-425. doi: 10.1037/a0021524

Brandt, M. J., Ijzerman, H., Dijksterhuis, A., Farach, F. J., Geller, J., Giner-Sorolla, R., . . . van ‘t Veer, A. (2014). The Replication Recipe: What makes for a convincing replication? Journal of Experimental Social Psychology, 50(0), 217-224. doi: http://dx.doi.org/10.1016/j.jesp.2013.10.005

Doyen, S., Klein, O., Pichon, C.-L., & Cleeremans, A. (2012). Behavioral Priming: It’s All in the Mind, but Whose Mind? PLoS One, 7(1), e29081. doi: 10.1371/journal.pone.0029081

John, L. K., Loewenstein, G., & Prelec, D. (2012). Measuring the Prevalence of Questionable Research Practices With Incentives for Truth Telling. Psychological Science, 23(5), 524-532. doi: 10.1177/0956797611430953

Miller, G. (2011). ESP Paper Rekindles Discussion About Statistics. Science, 331(6015), 272-273. doi: 10.1126/science.331.6015.272

Simmons, J. P., Nelson, L. D., & Simonsohn, U. (2011). False-Positive Psychology. Psychological Science, 22(11), 1359-1366. doi: 10.1177/0956797611417632

以一种什么样的心态来对待可重复危机?

最近心理学中的可重复危机反正是非常严重了,越来越多重复实验发现,之前认为很稳定或者很有趣的效应可能没法重复出来。面对这个可能影响心理学名声的危机,心理学家的反应各不相同,有人积极进行批判,提出了各种各样的方法,进行了分析等等,最后对目前心理学研究的结果表示非常悲观。也有否认目前的可重复危机,认为当前的危机都是扯谈的,就是搞重复实验的那帮人在捣乱。

 

作为心理学领域的年青人(研究生或者年轻的研究者),以一种什么样的心态来对待这个问题?说实话,我本人之前是非常忧心忡忡的,总是担心自己所研究的这些东西都是没有意义的。相当于把自己这么些年的时间折腾进去,原以为会能够做点有意义的事情,却发现都不靠谱。

 

但是最近的一个研究者的心态就比较好,以一种更理性的角度来看待这个问题。也就是说承认心理学对重复危机的正视本身就是一种进步,毕竟人类的心理过程如此复杂,先前我们喜欢那种看起来非常好的story,现在发现这种搞法不行了。虽然令自己人非常难堪,便毕竟我们还是继续批判和发展。这本身就是一种进步。说不定会有一些人搞出一些新的方法出来,让心理学作为一个整体去受益呢。具体见:http://sometimesimwrong.typepad.com/wrong/2016/02/end-of-the-world.html。