AI领域最火的论文平台arXiv,正在成为学术毒瘤?

arXiv作为一个开放的预印论文网站,三十多年来已经成了物理学、计算机科学、统计学等科学论文最重要的发布平台之一,特别是在数理领域,几乎所有在期刊正式发表的论文都在arXiv上有存档,计算机科学情况类似,特别是其中比较前沿的领域,比如最近火热的人工智能和大模型,更是把arXiv看作首发平台。

进行审核当然是必要的,这可以让arXiv的内容起码符合最低的学术标准,但这个问题严峻的地方在于,arXiv登载的都是学术内容,拒稿和封禁不管具有多大的正当性,实质上都在阻碍学术讨论,而执行这种权力的人甚至都不是同行,而是绝大多数匿名的管理员。

arXiv 陷入争议。

华盛顿大学教授,ACL 2023 的大会副主席Emily M. Bender 公开说它是一个“毒瘤”,宣扬盲目跟风以及“超过六个月就算过时”的计算机科学文化。

arXiv作为一个开放的预印论文网站,三十多年来已经成了物理学、计算机科学、统计学等科学论文最重要的发布平台之一,特别是在数理领域,几乎所有在期刊正式发表的论文都在arXiv上有存档,计算机科学情况类似,特别是其中比较前沿的领域,比如最近火热的人工智能和大模型,更是把arXiv看作首发平台。因此,Emily M. Bender 的这番话乍一听感觉十分严重。

但如果你了解Emily M. Bender一直以来的说话习惯的话,就不会这么认为了。

作为时代周刊评选的AI 100 人中的一员,自认第一身份是语言学家的Emily M. Bender一直是人工智能和大语言模型的强有力的批评者之一。她把大语言模型比喻成窃听成性的章鱼,指责它不仅无法理解真正的内容,而且在气候危机的大背景下消耗大量能源,用虚假信息污染系统生态,同时加剧偏见和英语霸权。

考虑到她一贯的说话方式,对arXiv 刺耳的批评也算是不出所料了。

最新一例将arXiv推上争议舞台的是所谓ACL拒信事件。来自纽约大学的博士后Naomi Saphra的论文由于违反了“匿名政策”而被ACL拒收论文。

所谓匿名政策,指的是投递到ACL这种学术会议的论文,在评审期间有一段匿名期,在匿名期间作者不能在社交媒体上谈论它,也必须让论文保持“匿名状态”,哪怕是在arXiv这个“预印”平台上。

有点不服气的Naomi Saphra把事情的前因后果发在了X上,结果引发了大量对ACL的声讨。

一般吃瓜群众可能有点纳闷,评判一篇论文好坏,不应该是看它的学术水平吗,为什么匿名与否这种无关紧要的政策,却成了一条不能触碰的红线?而这一切又和arXiv有什么关系?

为何匿名?

同行评议是世界范围内评价学术论文质量高低的通用做法,ACL这种顶级学术会议为了保证论文质量,更是严格采用“双盲同行评审”的方法。

所谓双盲,就是彼此都不知道对方身份的情况下对论文进行点评。这有点类似科举考试的“糊名法”,老师只能看到试卷的内容,看不到作者的名字,从而尽可能保证公允。

因此,匿名在这里就变得很重要。像ACL这种顶级学术会议,一般都会设置一个所谓匿名期,在期间作者不仅不允许公开自己的论文内容,而且也不能在社交媒体上进行宣传,为的就是防止社交媒体的舆论影响评审过程本身。

但是,这项政策从提出的一开始就不受欢迎,或者说充满争议。其中一个要点是,在许多突飞猛进的学科,比如大模型领域,技术几乎是日新月异的,而顶级学术会议的匿名期多在一个月或者更长,这显然会让研究者错过学术交流、迭代的机会。

在这方面,最旗帜鲜明的反对者就是Meta首席人工智能科学家、深度学习先驱、图灵奖获得者杨立昆Yann LeCun。他认为这会限制科学信息的交流,阻碍技术进步,违反道德规范(因为限制人们的表达)

有意思的是,这次ACL拒稿事件,杨立昆也同样持反对意见。

在转发中他特别引用了哈佛大学教授Boaz Barak的推文,任何试图阻碍arXiv的政策都是100%纯粹的愚蠢。

怎么讲,也可以说是一以贯之了。

杨立昆等一众大佬对arXiv的力挺和对所谓匿名政策的反对,实际上反映了arXiv在学术界广泛的影响力,这一切要从三十多年前说起。

首发平台arXiv

简单来说,你可以把arXiv理解成一个大型学术贴吧或者论坛,不同学科属于不同的分论坛,它们有自己的管理员志愿者,用来审核每一个帖子。

在arXiv出现之前,大家是靠互相发送手稿的方式来了解所在学科相关领域最新进展,直到1991年,有聪明人想到为什么我不建立一个集中存储系统来放置所有的论文呢?这就是arXiv的雏形。

值得一提的是,最早arXiv构建在Los Alamos National Laboratory 洛斯阿拉莫斯国家实验室,没错,就是奥本海默规划的负责原子弹制造的那个实验室。

arXiv和传统的论文发布平台——期刊,最大的区别在于它不需要同行评审,你的帖子,也就是论文,只需要对应板块的管理员通过审核就可以公开发布,而管理员只负责审核一些最基本的要素,比如论文中是否有攻击他人的内容等,并不负责审核论文的论证过程。

换而言之,arXiv上的论文很多质量是参差不齐的,你需要自行鉴别——就和你逛论坛一样,需要自行识别什么是精华贴

这种去中心化的论文分发形式很容易让人们联想到互联网最初被发明时人们对它的期待,绕过权威,构建一个广泛而民主化的自发社区,人们依靠高度的自觉进行自我管理。

这是许多人喜欢arXiv的原因,它看上去是反权威的,是一种推进学术民主化的好方法,如果你是一篇好的论文,那么其他人一定会认可,评价一篇论文好坏的标准从权威挪到了普通人手上。

特别是,由于绕过了传统期刊冗长的发布流程,arXiv还成为了许多快速推进的领域论文首发的地方。

一个最最明显的例子就是前一阵闹得沸沸扬扬的超导事件。来自韩国的团队在arXiv上发表了两篇宣称实现室温超导的论文,短时间内就引起了世界关注,全球范围内同时有多个实验室按照论文中提到的方法进行了复现。

之所以有两篇,而不是一篇论文来说同一件事(两篇论文的作者部分重合),据推测就是因为抢首发的缘故。虽然这件事最后被证明子虚乌有,但arXiv的重要性可见一斑。如今许多重要理论的发现时间都以它在arXiv上出现的时间为准,尽管准确来说arXiv上的论文都是“预印”状态的。

但现在,这种“预印”状态甚至成了论文的永久状态。不少科学家不仅把arXiv作为首发平台,甚至是论文发布的唯一平台。

既然发表论文的目的是让尽可能多的人看到、讨论、交流,那为什么非要发期刊呢?它不仅流程缓慢,同行评议还经常被诟病充满了偏见和暗箱运作的空间,更何况学术期刊是出版商们赚钱的下蛋金公鸡,数据库和电子版都十分昂贵。

相反,发表在arXiv上只需要动动手指就好了。

从2002年11月开始的八个月内,俄罗斯数学家格里戈里·佩雷尔曼在arXiv连续发布了三篇预印版论文,解决了困扰数学界整整一百年的庞加莱猜想。这三篇论文没有出现在任何期刊上,也就是说arXiv上的论文虽然是所谓“预印版”,但事实上已是格里戈里·佩雷尔曼论文的最终且唯一版本。菲尔茨奖委员会也正是根据这些“预印版”论文决定授予格里戈里·佩雷尔曼菲尔茨奖(尽管他没有接受)

类似的例子还有很多,而这两年大火的人工智能和大模型领域,arXiv更是一个绕不过去的平台,几乎所有的相关论文都首先由arXiv披露。

而这也成了arXiv挨骂的原因。

arXiv在侵蚀学术自由吗?

Emily M. Bender 说它是毒瘤的两个论点,“盲目跟风”和“超过六个月就算过时”的文化,从某个角度上说其实是一回事,arXiv这样最初以去中心化方式设计的平台,就像所有互联网平台一样,最终还是呈现出了中心化的特点,其表现之一就是对流量的趋之若鹜。

想要从浩如烟海的论文中脱颖而出(据说arXiv每月接受数以万计的论文),那么选一个恰当的方向(和标题)显然十分重要。

由于arXiv没有同行评议机制,因此,内行人一方面很容易知道下一个研究热点在哪里,另一方面也很容易制造出踩点跟风论文以便在时间上占得先机——具体的方法细节没关系,关键是要抢占点位,因为一旦率先发表了相关文章,那么这个领域后面的文章都将不得不引用它。

这一点在计算机科学,特别是深度学习、人工智能等领域尤其泛滥。同样的方法,换一个数据集,改动一些参数就可以生成一篇新的论文了。

这就是Emily M. Bender狠批“盲目跟风”的由来。在她看来,经过严密同行评议的论文应该得到更多支持。

arXiv上为了追求点击率而批量水出来的论文消解了学术的严肃性,而这种发展趋势实际上与很多互联网内容社区的发展路径相似,高质量的内容最终被流行内容淹没,于是平台整体内容质量开始下降。

除了Emily M. Bender的激进观点外,arXiv呈现出的另一个中心化问题是管理员权限的扩大

本来内容社区的运转是靠所有人的维护,这就是学术的民主化。但与日俱增的论文数量让arXiv的管理和维护人员逐渐拥有了比一般人更大的权限。就像贴吧吧主和论坛版主可以封禁、屏蔽成员的内容一样,基本都由志愿者组成的arXiv管理员们可以拒稿乃至封禁某些论文以及它的作者。

2020年,加州大学圣地亚哥分校的理论物理学家 Jorge Hirsch 在arXiv上回击了《自然》杂志不久前登载的罗切斯特大学物理学家 Ranga Dias的有关室温超导的论文,Jorge Hirsch 用的标题就挺“流量”的,名为“一个可能的科学欺诈剖析”。

为此Ranga Dias进行了回应,而针对回应,Jorge Hirsch又发表了多篇论文反击,大家就这样你来我往在arXiv打起了嘴仗,直到管理员封禁了Hirsch的论文并把他禁言六个月,理由是论文中使用了所谓煽动性、冒犯性和武断的语言。

除了禁言,管理员还有权拒稿。据悉arXiv有大约1%到2%的拒稿率,但人们实际上并不清楚稿子被拒的具体原因,arXiv不会给出特别解释,这就让arXiv的审核机制的透明度成为了一个争议的焦点。

一个国人比较熟悉的例子是,我国量子研究领域的著名科学家陆朝阳和潘建伟,在2021年8月于arXiv平台提交的论文就被直接拒绝。2014年,瑞士日内瓦大学的量子物理学家Nicolas Gisin的论文同样被拒,这篇论文在通过同行评审后发表在了《物理快讯A》上。

进行审核当然是必要的,这可以让arXiv的内容起码符合最低的学术标准,但这个问题严峻的地方在于,arXiv登载的都是学术内容,拒稿和封禁不管具有多大的正当性,实质上都在阻碍学术讨论,而执行这种权力的人甚至都不是同行,而是绝大多数匿名的管理员。

争夺学术话语权

许多人认为,上文提到的arXiv的缺点,可以通过诸如扩大审核管理队伍规模,公开评审标准和拒稿原因,引入评论、点评和打分机制,抛弃纯粹通过引用数量来衡量论文影响力的“唯流量”评价标准等等来解决。

总结起来,就是通过更加透明和更加广泛的用户参与的方式来解决,而不是回到传统的,封闭保守的同行评议的老路上去,也就是说,大部分人对arXiv还是持正面态度,从X上众口一词对ACL的批评就能看到。

针对 arXiv 的讨论,本质上是正在进行的学术话语权争夺战的一部分:究竟是极少数的行业专家,还是更广泛的同行与大众,有权对一篇论文的学术价值进行判定?如果是后者的话,那么以什么样的形式组织这种价值判定是最公平、专业和有效?

arXiv 不是完美的,由康奈尔大学运营的arXiv,像维基百科一样,严重依赖志愿者和捐款,然而它又是非常重要的,几乎可以说是学术界互联网基础设施。也许arXiv压根不该盈利,以保证绝对公允和独立的身份促进学术发展,但它的体量跟不上快速发展的科学技术进步也是事实,这种“跟不上”产生了一些偏颇的后果,但这不应该是我们苛责它的原因。

本文来自微信公众号:GenAI新世界(ID:gh_e06235300f0d),作者:薛良Neil

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
(0)
上一篇 2023年9月15日
下一篇 2023年9月15日

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日