一半以上实验结果无法重复,学术界正在遭遇一场危机吗?

文章正文
发布时间:2024-12-22 07:23

图源:Pixabay

撰文 | 詹羊

科学的大厦建立在大量可重复的研究结果之上,然而,近年来,种种迹象表示,在生物医学领域,大量的研究结果似乎不可重复。比如,Plos Biology最近发表的一篇对近2000名生物医学研究人员的调研报告中[1],在最终收回的问卷中,72%的参与调研的活跃一线科研人员认同生物医学领域存在可重复性危机,其中27%的参与者甚至认为这场危机非常严重。

但这也许不能算新闻。2021年,eLife上就发表了一篇针对癌症生物学的可重复性研究的总结[2]。结果发现,学术界至少一半以上的癌症生物学实验很有可能是不能重复的。而工业界似乎也没有好到哪里去---早在2011年,拜耳(Bayer)公司的一项内部调查显示[3],其对67个潜在的新药靶点进行重复实验时,仅有不到四分之一的结果得以重复。

由此可见,可重复性的问题在生物医学领域可谓旷日持久。解决这一问题,绝不会是朝夕之功。这方面,也许一个稍微没有那么热门的领域---心理学的故事,可以给我们带来一些启示。

扎堆的“p值曲线”

与不到一半的可重复率

心理学的可重复性故事,得从2011年讲起。

在这一年,现西班牙艾赛德商学院的尤里·西蒙松(Uri Simonsohn)、加州大学伯克利分校的莱夫·尼尔森(Leif Nelson)和宾夕法尼亚大学约瑟夫·西蒙斯(Joseph Simmons)发表了一篇具有里程碑意义的论文[4]。在这个文章中,三人直言不讳地道出了心理学领域心照不宣的事实:心理学研究者在实验设计和分析过程中拥有极大自由度,研究者往往可以通过不断的尝试,“证明”任何假说在统计上显著,可谓是“有志者,事竟成”。

作为一个例证,他们演示了如何通过选择样本量,选择控制不同的变量,以及选择不同的实验组、对照组等一系列骚操作,最终成功“证明”了“听披头士的歌使人年轻”的荒谬结论。假如这样的行为大量存在,那么大量已发表的心理学研究成果,可能都是不可重复的假阳性。

他们开出的药方是:研究者在开始实验之前就公开所有的实验选择,并严格按照公开的方案执行实验。这个药方,就是后来广为人知的“预注册”(pre-registration)。

同样在2011年,布莱恩·诺塞克经过多年努力,终于筹到了推动心理学领域大规模可重复性项目所需的第一桶金[5]。他说服了全球270多名研究者一起合作,计划对100-200项高影响力的心理学实验进行重复试验。这项雄心勃勃的计划,日后给心理学领域带来翻天覆地的变化。

西蒙松等人2011年的文章,只是在理论上指出了心理学可重复性危机的可能性,但在实证上,并没有强有力的证据表明问题已经严重成了一场“危机”。但到了2014年,情况变得更为清晰了。因为这三位研究者又发表了一篇有趣的论文[6],为实证检验心理学的可重复性危机提供了有力的工具,这就是著名的“p值曲线”。

p值是统计学中用于衡量结果显著性的重要指标,通常认为p值小于0.05就算显著。p值曲线依赖于一个简单直白的直觉:如果研究者在统计显著性上“钻空子”,一旦p值跌破那个神奇的0.05,他们就会兴高采烈地收工回家。如果这种情况普遍存在,那么我们应该会在已发表的论文中看到p值在0.05附近扎堆。果不其然,后续的研究利用p值曲线验证了这一点[7]。

而在2015年,诺塞克的大规模可重复性研究也开花结果,发表在Science上[8]。在完成的100项心理学重复实验中,只有不到一半(36%-47%)的研究结果被成功复制,约80%的重复实验中,检测到的效应强度比原先的实验要小。这一结果,彻底做实了心理学领域的可重复性危机。

想提高领域的可重复性,

应更鼓励不显著结果的发表。

现代发展经济学有“创造性破坏”(creative destruction)之说,指出创新往往首先带来旧的经济体系的崩解,然后建立更高效的新经济体系,最终推动经济发展。心理学的发展也是如此。西蒙松和诺赛克等人的工作,激起了心理学领域盛况空前的真理大讨论。自那以后,学界对可重复性根源和应对方案的理解有了长足的进展。

一方面,学科本身有其特异性[9]。在有些领域,理论和实验技术都已发展到了很高的水平(比如高能物理),其实验设计和分析的范式已经高度统一,没有太多任由实验人员自行裁量的空间,结果可重复性自然就高。然而像心理学这样的学科,目前的技术水平还无法做到这种程度的一致性,需要假以时日等待技术的自然进步,在此之前,要对可重复的实验比例有个理性的预期。

另一方面,科学家也是人,人类多样的行为也会影响科研产出的可靠性。这里面,最突出的当然是严重的学术不端,比如赤裸裸的造假。但是最广泛的,也是最难以杜绝的还是是西蒙松等人在2011年文章中指出的,通过反复尝试不同的实验设计和分析流程,直到获得显著的结果。这样的微小的“作弊”,几乎无法被确凿地证明。除此之外,即使研究者主观上没有“作弊”的动机,实验过程中也极有可能下意识地调整实验条件,直到预期结果出现---毕竟很多新的科学发现,需要的就是反常规的实验设计和分析流程,无法预先框定,尝试不可避免。

现行的发表制度,则进一步鼓励了这种微小“作弊”行为的泛滥,而“不发表,就出局”的简单粗暴的科研管理体制也为这种现状添了一把火。在前述PLOS Biology研究中,受访的研究者们纷纷表示发表不可重复性结果的主要原因是“发表压力”。

对此,现加州大学默赛德分校的保罗·司马尔蒂诺 (Paul Smaldino)和现马普所演化人类学所长理查德·麦克埃尔里思(Richard McElreath)就在2016年一篇极具影响力的论文中指出[10],只要现行的学术激励只倾向于发表新颖而显著的结果,这一现象就很难被遏止。华盛顿大学的卡尔·伯格斯特罗姆(Carl T. Bergstrom)也在2016年一篇文章中指出[11],想要提高领域的可重复性,现行的发表体制应该更加鼓励不显著结果的发表。

除了理论方面的探究,可重复性的实证研究也大有进步。这里面不乏极具趣味性的研究,在这里仅举一例,来自2015年发表在PNAS的一篇文章[12]。在这篇文章里面,作者展示了如何使用“预测市场”(prediction market)来预估实验的可重复性。预测市场通过价格机制将参与者的不同信息、观点和判断汇聚在一起。每个交易者根据自己的知识或预期买入或卖出合约,价格最终反映了集体智慧。在诺赛克的市场中,科学家和公众可以对某项研究是否可重复进行匿名的“投注”。结果发现,市场最终的价格,相比于采访领域内的专家们的意见,更能够准确预测实验的可重复性。

而可喜的是,这些探究并不仅仅停留在学术讨论上。很多的应对方案,开始慢慢变成了心理学研究的新范式。比如当年西蒙松等人提出的预注册实验方式,已经被越来越多的学者所践行,而领域内的顶级期刊,比如Nature Human Behavior,也在鼓励这类文章的投稿,并且声明无论结果符不符合预期,只要按照预注册的标准严格执行,都予以接受。

从心理学的经验看来,可重复性危机不仅仅是“危机”,更是“置信度的革命”(credibility revolution)。这让我们有理由对生物医学领域可重复性的未来保持乐观。

参考文献

[1] Cobey, K. D. et al. Biomedical researchers’ perspectives on the reproducibility of research. PLoS Biol. 22, e3002870 (2024).

[2] Errington, T. M. et al. Investigating the replicability of preclinical cancer biology. Elife 10, (2021).

[3] Prinz, F., Schlange, T. & Asadullah, K. Believe it or not: how much can we rely on published data on potential drug targets? Nat. Rev. Drug Discov. 10, 712 (2011).

[4] Simmons, J. P., Nelson, L. D. & Simonsohn, U. False-positive psychology: undisclosed flexibility in data collection and analysis allows presenting anything as significant: Undisclosed flexibility in data collection and analysis allows presenting anything as significant. Psychol. Sci. 22, 1359–1366 (2011).

[5] Wikipedia contributors. Reproducibility Project. Wikipedia, The Free Encyclopedia https://en.wikipedia.org/wiki/Reproducibility_Project (2024).

[6] Simonsohn, U., Nelson, L. D. & Simmons, J. P. P-curve: a key to the file-drawer. J. Exp. Psychol. Gen. 143, 534–547 (2014).

[7] Head, M. L., Holman, L., Lanfear, R., Kahn, A. T. & Jennions, M. D. The extent and consequences of p-hacking in science. PLoS Biol. 13, e1002106 (2015).

[8] Open Science Collaboration. PSYCHOLOGY. Estimating the reproducibility of psychological science. Science 349, aac4716 (2015).

[9] National Academies of Sciences, Engineering, and Medicine et al. Reproducibility and Replicability in Science. (National Academies Press, Washington, D.C., DC, 2019).

[10] Smaldino, P. E. & McElreath, R. The natural selection of bad science. R. Soc. Open Sci. 3, 160384 (2016).

[11] Nissen, S. B., Magidson, T., Gross, K. & Bergstrom, C. T. Publication bias and the canonization of false facts. Elife 5, (2016).

[12] Dreber, A. et al. Using prediction markets to estimate the reproducibility of scientific research. Proc. Natl. Acad. Sci. U. S. A. 112, 15343–15347 (2015).

本文经授权转载自知识分子ID:The-Intellectual),如需二次转载请联系原作者。欢迎转发到朋友圈。