全球撤稿量创新高,是什么拖了科研创新的后腿?

四、同行评议拖了科研创新的后腿

从审稿人的角度出发,我们可以看到同行评议制度的另一个关键局限:审稿人主要依靠现有的知识体系来审阅投稿论文中潜在的创新观点或发现,具有偏保守的局限性,可能无法对超出自身知识范围的颠覆性观点做出正确判断,从而拖了科学创新的后腿。

2015年,发表在《美国国家科学院院刊》(PNAS)上的一篇文章[14]分析了1008份顶级期刊稿件的审稿意见,发现同行评议能够识别出良好的研究论文,但一般无法识别出高创新性的文章,后一类型的文章往往被高影响因子期刊拒稿,最终发表在一些低影响因子期刊上。

2023年走入尾声,今年学术界除了在诸多领域取得突破、带来惊喜之外,在科研诚信方面也创造了一个新纪录。据《自然》(Nature)统计[1],2023年全球科研论文撤稿数量超过1万篇,为历史新高。一方面,这是各大出版商努力打击学术不端的成果,另一方面也充分暴露了多年来一直为学界所诟病的同行评议(或称同行评审,Peer review)问题。

《自然》统计的最近十年年度论文撤稿数量变化趋势。图片来源:nature.com

一、论文越多,撤稿越多

经历过论文发表流程的科研人员对同行评议制度自不待言。作为学术期刊出版的黄金流程,该制度最早可追溯到17世纪中叶英国皇家学会刊物创刊之初。随着学术期刊出版业的发展成熟,同行评议在20世纪70年代成为了论文发表流程中重要组成部分,这项制度有效促进了学术论文数量的增长,推动科技进步。[2] 

时至今日,每年有上百万篇论文发表在学术期刊上,背后的投稿数量更是数不胜数。期刊编辑要对投稿进行第一次评审,在其中挑选出学术价值更高并符合期刊要求的论文,之后通常指派至少两名审稿人进行同行评议,判断其结论是否足够可靠、论证过程是否严谨等;最后编辑根据审稿意见决定是否录用。

常见的同行评议类型包括单盲评议、双盲评议,还有周期更长的三盲评议,以及开放同行评议(常用于开放获取在线期刊)。一般期刊都有一套完整的同行评议制度及流程,所以一篇论文最终能在期刊上发表,无一例外都经过审稿人“盖章确认”,以保证论文质量。

但现实情况果真如此吗?

事实上,撤稿观察网站(Retraction Watch)一直在做相关统计。他们发现,随着论文发表数量逐年增长,撤稿数量也在同步增长。从2022年起,该网站分门别类记录下5400多篇撤稿论文,而2002年的撤稿文章不过约120篇。[3] 其中,2022年因为虚假评议或者有问题的同行评议而撤稿的论文占据了一半以上。[4] 2023年11月,学术出版商SAGE一口气撤下自家《国际电气工程和教育期刊》(International Journal of Electrical Engineering and Education)上的209篇论文。

经调查,这些文章的问题包括“同行评议受损或不符合SAGE的流程标准和期望等原因”。对此,SAGE解雇了该期刊主编,“清洗”了编委会。[5] 而今年早些时候,出版商Wiley和Hindawi对外表示旗下期刊上大约有2000篇论文存在同行评议操纵问题,开始陆续撤稿。[6]  而《自然》统计出的1万多篇撤稿中,有超过8000篇便出自Hindawi所属期刊。

撤稿观察网站统计的撤稿数量。红色代表了年度论文撤稿总数,绿色则代表因同行评议问题而撤稿的论文数量。

图片来源:参考资料[4]

同行评议问题本来被诟病已久,而今再度被推上风口浪尖,也因为近年来的几次撤稿“大事件”。2023年度最著名的论文撤稿事件要数美国罗彻斯特大学(University of Rochester)机械工程和物理学教授Ranga Dias团队的室温超导论文。

其论文3月于《自然》甫一发表便轰动全球,然而仅8个月之后,《自然》就发布撤稿声明——这是Dias团队近14个月内遭遇的第三起撤稿事件。另外,神经科学家、斯坦福大学前任校长Marc Tessier-Lavigne今年也有4篇论文被撤稿,这些论文曾分别发表在《细胞》(Cell)、《科学》(Science)和《自然》期刊上。

面对层出不穷、数量越来越庞大的撤稿事件,学界专家将矛头直指对论文质量把关肩负重任的同行评议。毕竟,一旦有问题的论文在权威期刊上发表,其影响力有多大,其造成的后果就会有多严重,而彻底消除负面影响的时间则会更长久。例如,1998年《柳叶刀》(The Lancet)期刊上发表的一篇论文“证明”自闭症与疫苗相关[7],再度激发公众对疫苗的不信任,并很快掀起了大规模的反疫苗运动。直到2010年,这篇问题论文才被撤回。

以上种种皆让人们不断质问:本是推动学术进步的制度,为何让“漏网之鱼”越来越多,甚至蒙混登上顶刊?


二、同行评议的“不作为”

论文撤稿的理由很多:数据问题、图片造假、剽窃、伦理问题等等。Dias室温超导论文的撤稿,主要原因是其中8位合作者的主动要求,他们认为论文没有准确反映研究材料来源、实验测定方法和数据处理方案;而期刊也独立发现了论文中电阻数据可靠性问题,并进行了调查,但目前尚无最终定论。[8]    

那么,作为“品控”的审稿人们在同行评议的时候就没看出这些问题吗?

遗憾的是,有些问题可能并不在当前同行评议的职责范围内。《自然》主编Magdalena Skipper曾公开表示人们误解了同行评议的作用:编辑指派科学家做审稿人,他们的主要任务是为投稿文章提供批评意见,建议是否应该发表论文,但他们不会去审核最基础的实验数据集。Skipper比喻说:“我不希望我们的同行评议好像警察抓小偷一样去‘提审’论文。”

知名健康媒体STAT新闻曾根据各家期刊和编辑的说辞,总结了审稿人在同行评议过程中不会去做的工作[9]

1. 不要指望审稿人能审核清楚论文作者是否将公共数据占为己有,是否有一稿多投等行为;

2. 不要指望审稿人能审核出论文中的欺诈行为、抄袭等问题,除非这类问题过于显眼;

3. 指出论文中的伦理争议不是审稿人的责任,这是作者本人应该严格遵守的准则;

4. 审稿人不会检查所有数据、重新计算p值,除非期刊有专门负责核查统计方面的审稿人;即便有,后者通常只会检查一下论文中使用的统计学方法,采样一些数据而已。

对于秉持严谨科学精神的科学家们来说,期刊说辞显然是在推卸自己最基本的责任。“我认为期刊的作用之一就是提供更多机会,让读者阅读到更多真正高质量的科研论文。”英国《麻醉》(Anaesthesia)期刊的编辑、麻醉专家John Carlisle说道,“我不懂他们现在为什么反过来说核查数据不是他们的任务。”

三、缺乏透明度

缺乏透明度是同行评议制度的另外一个缺陷。同行评议强调盲审,论文作者、审稿人,甚至期刊编辑,彼此都不知道对方是谁。这看似公正,但也让操纵同行评议有机可趁。

有研究指出,盲审的保密性给审稿人带来一定安全感,但他们也可能觉得自己不一定有责任要完备周详地考虑论文的方方面面,因此同行评议工作的完成度并不那么彻底。[10]很多论文作者抱怨说,专家的反馈意见要么泛泛而谈、不得要领,要么与文章内容南辕北辙,而作者难以根据反馈意见进一步修改论文。

另外,面对审稿人身份的“不透明”,作者无法确认对方是否合适来审稿,无法了解指派的专家是否了解课题,或者审稿人是否有足够的能力。(而如果研究领域过窄,则可能出现盲审不“盲”的问题。)随着现代科学发展的深入以及交叉学科的出现,任何专家都不可能全知全能,并且专家的个人偏见也有可能影响审校意见。这些最终都可能降低同行评议以及论文终稿的质量。[11]    

不过,如今越来越多期刊认识到需要让同行评议更加清晰透明。由于同行评议本身不能完全保证作者得出的结论的有效性,公开审稿信息有助于表明论文中潜在的问‍题和局限性,读者自己可以从批判性的角度更好地评估研究结果。[12]

例如,开放获取‍出版商BioMed Central和PeerJ从2015-2016年起,采取了开放同行评议制度——将审稿人的审稿意见在线发表,而不仅仅只透露给作者。另一开放获取平台F1000Research则采用了发表后同行评议制度,即先在平台上发表论文,学界内的任何专家都能参与论文内容的评审,公开提供审稿意见。作者随后根据这些意见进一步修改稿件,上传更新版本,从而做到了同行评议流程的彻底公开。[13]    

除了开放获取平台,传统期刊也在同行评议透明化方面做出了努力。《自然·通讯》(Nature Communications)在2016年起采取让作者选择是否愿意公开审稿意见以及作者回复。《自然》自2020年2月起也提供相同选项作为试点,结果显示2021年所发表的论文中有将近一半的文章附上了同行评议报告。现在,读者阅读这两份期刊时,可以看到许多论文公开了同行评议审稿人信息,或者可下载完整的评审意见。

四、同行评议拖了科研创新的后腿

从审稿人的角度出发,我们可以看到同行评议制度的另一个关键局限:审稿人主要依靠现有的知识体系来审阅投稿论文中潜在的创新观点或发现,具有偏保守的局限性,可能无法对超出自身知识范围的颠覆性观点做出正确判断,从而拖了科学创新的后腿。

2015年,发表在《美国国家科学院院刊》(PNAS)上的一篇文章[14]分析了1008份顶级期刊稿件的审稿意见,发现同行评议能够识别出良好的研究论文,但一般无法识别出高创新性的文章,后一类型的文章往往被高影响因子期刊拒稿,最终发表在一些低影响因子期刊上。

生命科学期刊eLife的审稿编辑、中科院遗传发育所研究员钱文峰曾指出高创新论文发表难的关键:“我们(科研人员)大概知道什么文章好发,太创新的文章就不好发,有一定程度创新的文章才好发。最好的文章都不太好发,同行没那么容易接受,他们的思想得慢慢地转变过来。”[15]    

为了能让文章顺利发表,研究人员可能会陷入两极化的思维模式[16]:要么自己的科学观点能够得到审稿人的喜爱,要么一无是处。久而久之,科研人员更倾向于做能“取悦”他人的研究,在旧想法上加那么一点儿新意(往往被认为这算灌水),反而越来越少地去思考挑战现有知识体系的大胆颠覆性想法。

于是,为科学把关的同行评议继续巩固既有范式,为科学突破增加了一道阻碍。因此许多人支持发表预印本论文,将自己的成果交与给更广泛的同行,或许建设更成熟的预印本文库会在一定程度上解决这个问题。(编者注:关于预印本论文,可参见《预印本论文靠谱吗?》《预印本:学术交流的“破坏性创新”》)

五、同行评议背后的“利益纠葛”

同行评议的更深层次问题是学术事业和学术出版行业的“利益纠葛”。“Publish or Perish”文化在学术圈长盛不衰,是让每位科研人员触目惊心的警语,也极富争议。论文发表早已成为科研生涯进阶的重要指标,往往与有限的学术资源分配、学位获得、职位晋升等挂钩。

虽然不少国家,包括我国在内,已开始采取行动,力图打破“唯论文”现象,努力建立更合理的科学评估体系和人才评价制度。但目前来说,论文发表仍是最重要的指标之一,发表压力的存在会让一些研究人员急功近利,甚至在论文发表流程过程中搞“小动作”。而期刊出版商也会利用这种压力,大肆出版不适合的论文。

此外,如果论文所属的领域高度专业化,编辑之间可能很难快速找到合适的审稿人,有些期刊和编辑会允许论文作者推荐审稿人。一方面,这样的操作可能有助于不拖延论文发表时间,有研究表明,从审稿人角度来考察,作者推荐的审稿人与编辑选择的审稿人在审稿质量方面的差距并不大[17]。不过,前者的论文接收率显著超过拒稿率,因此这样的做法很容易被别有用心之人利用。

例如,作者可以建议审稿人只给出正面评价。而更加恶劣的行为是作者凭空捏造出一个审稿人,自己让自己的文章通过同行评议。前文提到的SAGE大规模撤稿事件中,很大一部分论文的审稿人便由作者本人所推荐,给操纵同行评议大开便利之门,损害了同行评议的公正公平原则。

另一方面,期刊编辑们也承受着相同的发表压力。随着论文投稿数量逐年攀升,期刊和编辑都要挣扎着完成各自的绩效。出于商业考量,出版商会制定任务目标:‍一方面要在尽可能短的时间内发表尽可能多的论文;同时要维持并提升期刊的影响因子。

这样一来,编辑展开工作时会偏倚重心,更看重论文“数量”而非“质量”。他们可利用手中职权,影响论文发表的最终决策,或者不再谨慎地指派审稿人,甚至不去验证审稿人的身份。更有甚者,编辑虚构审稿人,操纵同行评审流程,以快速接收、发表论文。[10]早在2015年,Hindawi出版商就发表过声明,表示旗下的三名期刊编辑“创建欺诈性的审稿人账户,通过这些账户增加有利于论文的审稿报告”,一顿操纵之后一口气发表了32篇问题论文。[18]    

研究者的论文发表压力和出版商盈利压力如同两只无形的手,促使着编辑们将一篇篇有问题、甚至是欺诈性论文推送到自家刊物上。最终结果往往期刊平台不断发表撤稿声明,受损的不仅是期刊口碑,还会深深破坏公众对科学的信任。

六、如何改变现状?

同行评议有如此之多的问题,那有没有办法避免这些情况的出现呢?一篇发表于Learned Publishing的评论性文章提出了一些可行的建议:首先,编辑应该要扩充自己的审稿人人才库,确保能及时选择出可靠、高质量的审稿人,缓减期刊论文发表压力,更集中于评估投稿质量,确保审稿人意见的公平公正。

其次,对于作者推荐的审稿人,如若期刊同意采用这样的模式,就应该限制作者推荐审稿人的数量,或者在确定审稿人之前,先展开一轮审稿人筛选,保证审稿人本身的质量。最后,无论对于编辑还是作者,都应该时刻把欺诈性手段的严重后果牢记于心:阻碍科学进步不说,还可能危及人类自身。[10]    

也有人提议向审稿人支付同行评议劳务费,但这无疑会给期刊增加一笔额外开销。对此,《科学》总编Holdn Thorp曾表示过:“很难从经济角度去如此运作。”另一个方法是继续同行评议,邀请审稿人评估新研究的科学设计和文章观点的同时,期刊内部另外聘用专家展开数据核查流程。墨尔本大学(University of Melbourne)的心理学研究员、《心理学科学》(Psychological Science)期刊的新主编Simine Vazire就计划在员工中增加一些科学家,承担核查投稿论文中的数据和统计学工作。[3]    

还有期刊采取了新的出版模式:从2023年起,eLife取消了同行评议后的接收/拒稿决策,而是将经同行评议的论文以 “有评审报告的预印本” 的形式发表在eLife网站上,包含了公众评论,作者对评估的回应等。[19] eLife这次改革的关键点,就是让同行评议不再为期刊发表把关,回归过去学术交流的角色,并且把决定是否出版的权利交给作者。

近年来,围绕同行评审制度的争议始终存在,媒体不断曝出的论文撤稿事件让学界越来越怀疑同行评审是否能胜任其核心任务:确定论文原创性、正确性和重要意义。诚然,同行评审制度不是最好、也不是最坏的制度,而且也不会在一夜之间就被学界、出版界彻底摒弃。目前最好的做法是吸取已有的教训,不断改进流程,查漏补缺,也许在不断累积的改变过程中,会演化出一套更合理的制度,保证论文品质,有力推动科学进步。

本文受科普中国·星空计划项目扶持,出品:中国科协科普部

本文来自微信公众号:返朴 (ID:fanpu2019),作者:小叶

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
(0)
上一篇 2023年12月25日
下一篇 2023年12月25日

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日