GPT-4整治学术不端

既然发现推文具有预测论文撤稿的潜力,研究进一步探索了关键词方法、机器学习模型和ChatGPT在根据推文来预测论文撤稿方面的潜力,将各模型的预测结果与人工预测结果进行比较。

例如,从样本论文中可以看出,ChatGPT对推文有深刻的理解,并能准确提取可能预测论文撤稿的信息,为使用推文评估论文是否存在潜在问题提供了宝贵的帮助。

学术论文的撤稿事件时有发生,这不仅损害了科研诚信,也可能对公众信任和科学进展产生负面影响。

传统上,学术界依赖同行评审和出版后的读者反馈来识别和纠正问题论文,但这些方法可能无法及时发现所有问题,尤其是在当前科研论文出版数量急剧增加的背景下。

在这种情况下,如何快速识别存在问题的论文,并促进它们的撤稿,成了学术界亟待解决的一个难题。

最近,来自中国人民大学和浙江大学等机构的研究者把涉及数千篇SCI/SSCI的期刊论文的一万多条推文喂给了GPT-4,让它根据推文回答这篇论文是否有可能被撤稿,然后和人类预测的结果相比较。

论文地址:https://arxiv.org/abs/2403.16851

结果,GPT-4几乎完美地胜任了这项工作,预测结果有近95%和人工预测结果一致!

论文作者Er-Te Zheng总结道:大模型虽然有可能引发学术不端,但在另一方面也能够帮助识别问题论文并预测其撤稿,维护科研诚信。因此,将AI工具应用于学术研究问题的关键,在于AI工具如何为人类所使用。

推文能预测论文撤稿吗?

作为ChatGPT预测的基础,研究首先探索了推文本身能否预测撤稿。我们都知道,有许多问题论文首先在推特上被曝光,然后才被撤稿。比如用AI画小鼠插图的这篇“著名”论文。

为探索推文本身能否预测撤稿,研究搜集了一组包含3505篇撤稿论文的数据集,并采用粗略精确匹配方法获得的具有相似特征的3505篇未撤稿论文。

这些特征包括发表期刊、发表年份、作者数量和推文数量。通过推特API收集了上述7010篇论文的推文数据,包括推文发布日期和文本内容。

筛选出在论文撤稿前发布的推文后,研究最终共搜集到8367条涉及撤稿论文的英文推文和6180条涉及未撤稿论文的英文推文。

研究将推文分为训练集和测试集,在训练集上训练模型,并在测试集上验证关键词方法、机器学习模型和ChatGPT的预测结果情况。研究使用人工预测结果(研究者根据推文预测论文撤稿情况)作为主要基准之一,用以衡量模型与人工方法的一致性情况。

作为研究基准的人工预测结果显示,人类若认为推文暗示论文存在问题,则推文涉及的这篇论文有高达约93%的几率会被撤稿(精确率≈93%),这说明部分推文的确能够预测论文撤稿;不过,像这样能通过推文被人工预测出撤稿的论文的总体占比不高,约占所有撤稿论文的16%(召回率≈16%)

因此,尽管只有一小部分撤稿论文的相关推文在论文撤稿前含有了可识别的问题信号,但这些信号确实存在。

研究者观察到,能够有效预测论文撤稿的批评性推文有两种类型:第一种直接突出论文中的错误或学术不端行为;第二种使用批评或讽刺的方式来突出论文的质量存疑。

这些推文能够促使期刊对论文进行调查,如果调查证实了推文中提到的问题的存在和严重性,论文随后可能会被撤稿。在这种情况下,批评性推文可以作为撤稿论文的催化剂,强调了将其纳入研究诚信的早期预警系统的价值。

ChatGPT能预测论文撤稿吗?

既然发现推文具有预测论文撤稿的潜力,研究进一步探索了关键词方法、机器学习模型和ChatGPT在根据推文来预测论文撤稿方面的潜力,将各模型的预测结果与人工预测结果进行比较。

研究表明,GPT-4的总体预测结果(包含撤稿预测和非撤稿预测)与人工预测结果的一致性最高,高达约95%

其次是GPT-3.5和SVM模型,其一致性超过80%。而关键词方法与其他机器学习模型的一致性则在46%-64%之间,预测效果一般。

在精确率方面,同样是GPT-4的精确率最高:GPT-4预测会撤稿的论文中,近70%的在人工预测中同样会撤稿。而其他模型的预测精确率均远低于GPT-4。

图中进一步显示了不同模型预测结果与人工预测结果的比较。关键词方法和三种机器学习模型(LR、RF和NB)将大量人工无法判定为撤稿的论文归为撤稿(过拟合率高)

相比而言,GPT-4的预测结果最接近于人工预测的结果:绝大部分GPT-4预测为撤稿的论文,人工预测也为撤稿,绝大部分GPT-4预测为非撤稿的论文,人工预测同样为非撤稿。

ChatGPT预测论文撤稿的实例

与其他方法相比,ChatGPT还有一个重要的优势——它能够为其预测提供理由,而其他方法则无法详细解释其决策。

例如,从样本论文中可以看出,ChatGPT对推文有深刻的理解,并能准确提取可能预测论文撤稿的信息,为使用推文评估论文是否存在潜在问题提供了宝贵的帮助。

例如:

然而,也要注意到ChatGPT有时存在“幻觉”问题,可能会产生不恰当的输出,因此在使用时需要谨慎,并考虑到其可能的错误预测。

例如:

样例论文3中,相关推文是对这篇论文的评价,暗示该论文指出诺奖得主的某篇论文存在问题。

然而,ChatGPT将样例论文3误以为是被撤稿的诺奖得主的相关工作,因此这篇论文可能被撤稿。此处的分析结果表明,ChatGPT存在一定的逻辑推理谬误与过度解读等问题。

因此,ChatGPT虽然能够通过推文从一定程度上预测论文撤稿,与人工预测的一致性在各模型中表现最好。但其在当前并非完美,在未来仍有长足的改进空间。

研究收到了著名学术不端数据库撤稿观察的转发,网友们表示,ChatGPT还能用来预测论文撤稿?真是从未设想过的道路。“我还以为没有足够多的数据来支撑这一结论呢!”

“ChatGPT 可以根据推特提及来预测论文撤稿吗?显然可以!请看这项研究……”

总体而言,研究揭示了社交媒体讨论作为论文撤稿早期预警的潜力,同时也展示了ChatGPT等生成式人工智能在促进科研诚信方面的潜在应用。

作者介绍

Er-Te Zheng(郑尔特)

Er-Te Zheng是中国人民大学信息资源管理学院的硕士生,由Zhichao Fang助理教授指导;在浙江大学获得管理学学士学位,师从Hui-Zhen Fu副教授。未来将前往英国谢菲尔德大学信息学院攻博,师从信息计量学首席专家Mike Thelwall教授。他的研究方向涉及计算社会科学、科学学和科学计量。

Hui-Zhen Fu(付慧真)

Hui-Zhen Fu是浙江大学公共管理学院信息资源管理系副教授,北京大学博士。担任信息资源管理研究所副所长,荷兰莱顿大学科学技术研究中心(CWTS)访问学者。在国际权威刊物发表论文超过40篇(SCI/SSCI),连续四年(2020-2023)入选爱思唯尔中国高被引学者榜单。她的研究方向为交叉科学、科学计量、科研诚信和科研管理。

Zhichao Fang(方志超)

Zhichao Fang是中国人民大学信息资源管理学院助理教授,荷兰莱顿大学科学与技术研究中心(CWTS)博士,莱顿大学CWTS客座研究员,伊朗波斯湾大学社交媒体数据研究组成员。在科学计量学与科技政策等领域发表SCI/SSCI论文20篇,多项研究成果受到Science杂志等权威学术媒体采访报导。他的研究方向为科学学、科学计量和社交媒体计量学。

参考资料:

https://arxiv.org/abs/2403.16851

本文来自微信公众号:新智元 (ID:AI_era),作者:LRS

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
Like (0)
Previous 2024年4月17日 13:10
Next 2024年4月17日 13:40

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日