世界首个AI程序员Devin,视频竟造假?

如下是Devin在官方视频中,完成任务的表现。

回到命令行,如果放大窗口的其他部分,便会看到,Devin将一些内容写入一个名为inspect_results.py的文件中,接着运行Python执行这个文件,结果出现了语法错误。

该库中有一个名为infer.py的文件,正如视频中Devin所做的那样。

最后再看下Devin完成工作的效果及其评价。

全网爆火的世界首个AI程序员Devin,如今被爆出视频竟是作假?

最近,一位有35年软件工程师经验的YouTube博主逐帧复现了Devin完成Upwork任务的宣传视频。

却意外发现,AI并不能像人类工程师一样完成任务,而且表现非常糟糕。

他将25分钟“揭穿Devin的谎言”视频公开后,一时间引爆全网并在HN、Reddit等社交平台上掀起轩然大波。

更有意思的是,博主自己复制了Devin尝试做的任务,花费了大约36分钟。然而,Devin用了至少6个小时,甚至可能超过一天。

有网友表示,“正如博主详细解释的那样,尽管其试图在演示中暗示,Devin并不能独立完成Upwork的工作。它正在创建混乱、过于复杂的代码”。

也有人认为,Devin从诞生之初,就更多是营销和炒作,而不是现实。

说来,Devin视频真的是作假了吗?

一、逐帧分析,揭穿Devin的谎言

Devin发布之初,其背后的初创公司Cognition AI更新了官方博文,通过七个视频介绍了这一AI的“魔力”。

其中一个视频,是让Devin自主完成了全球最大的综合类自由职业平台Upwork的一项任务。

当时,网友看后惊讶地表示:没想到AI智能体都可以做副业了。

Cognition的开发者You挑选了一项“用计算机视觉模型做推理”的工作,具体要求是:

  • 我希望利用该资源库中的模型进行推断。(https://github.com/mahdi65/roadDamageDetection2020)

  • 您的交付成果将是关于如何在AWS的EC2实例中进行操作的详细说明。

  • 请提供您完成这项工作的评估报告。我不会回复没有评估的报告。

如下是Devin在官方视频中,完成任务的表现。

接下来,我们一起来看下YouTube博主是如何逐帧分析Devin在真正实操中的能力的。

博主称,我们首先看到,Devin并不能做到Upwork上的所有工作,而是由研究者精心挑选了“road damage”任务。

当然,这并非说Devin就是欺骗性的,而是代表其在别的任务中的表现,一定要比这个差。

然后,在实际对话中,开发者You向Devin提出的要求如下,“我想用这个储存库中的模型进行推理,请弄清楚”。

值得注意的是,客户的要求是“你需要在亚马逊EC2实例中提交这一操作的详细说明”,这与开发者提出的要求显然不同。

然而,从Devin的视频末尾可以看出,它实际上并没有按照客户要求完成工作。

在博主看来,在完成这项任务之前,你需要明确如何开始这项工作。

这就需要向客户询问:

  • 实例的大小,类型?

  • 是更倾向于一个运行更快但成本更高的实例,还是一个更经济但运行较慢的实例?

  • 这个系统需要持续在线吗?

  • ……

如何处理自己需要进行推理分析的资料/图片?你将怎样把这些上传到服务器?

比如,可以建立一个网页界面来处理,也可以通过SSH上传,或者放在S3 bucket里。那输出结果的访问方式又是怎样的呢?

这些都是必须了解的问题。

总而言之,博主称,这也是我之前视频里提到的,软件开发者的工作中最难的、最关键的、最耗时的一部分:主要是与客户、领导及其他利益相关者的沟通。

这些都是AI目前无法完成的任务,而这些恰恰是我们所做的非常重要的事情。

二、Devin实际上做了什么?

如下是视频中的一个截图,提到了一个Repo。

这是一个名为 requirements.txt 的文件,它规定了代码的依赖库版本。

不过,这个代码库最初依赖的一些库是四年前的版本,而现在其中一些库已经不再提供下载,所以不得不进行修改。

再此,视频中提到,Devin更新了代码。博主表示,“Devin能够做到这一点确实令人赞叹”。

与客户的要求相比,他们希望基本建立起自己的推理能力。

Devin被告知只使用样例数据就可以,因此这正是博主复现Devin操作时所做的。

Devin很早就遇到了一个错误,这是一个命令行错误:

在顶部,遇到了与打开图像、文件未找到、无此文件或目录相关的错误。

这个错误出现在一个名为visualize_detections.py的代码文件中。博主称自己并没有遇到这一问题,是因为代码库中不存在名为visualize_detections.py的文件。

回到命令行,如果放大窗口的其他部分,便会看到,Devin将一些内容写入一个名为inspect_results.py的文件中,接着运行Python执行这个文件,结果出现了语法错误。

在Python文件中使用/n是不行的,而且echo命令也不该这么使用。整个过程都是错误的,且毫无意义。

Devin在创建这些含错误的文件后,又进行了修正。视频中提到,Devin实际上是在进行打印行调试。这是一个很常见的做法,很多人都会用到。

评论里说,“Devin正在添加代码,追踪数据流直至彻底理解”。

博主对此怀疑道,我不相信Devin真的能理解任何事物。

放大观察这一部分,可以看到一个奇特的循环。它正在读取一个文件,并把数据读入一个缓冲区。这是update_image_ids.py文件。

再次说明,这个文件在客户要求使用的代码仓库中不存在。

实际上,博主在GitHub上搜索了所有可能的位置,只有2处存在带有这个名称的文件。

屏幕上显示有三个的原因是,其中一个是另一个的分支版本,它们与Devin正在使用的文件完全不同。

但问题在于Devin此处正在调试一个自己创建的文件,而这个文件完全不在项目代码仓库中,非常不妥。

其实,Devin并不是在修正自己在网上发现的代码,也不是在处理客户指定的问题代码,而是在修正自己生成的错误代码。

更糟糕的是,这样做并不必要。这是那个代码库中的readme文件。

该库中有一个名为infer.py的文件,正如视频中Devin所做的那样。

readme文件说明了其功能及使用方法。在右侧,甚至还有一个小按钮,可以复制整条命令,粘贴至命令行窗口,然后按下回车。

博主认为开发这个“检测道路损坏”的代码仓库的人已经尽可能地简化了使用说明,但Devin似乎还是没能理解。

因此,Devin不得不自己创建了一个混乱的项目。

正如Devin所发现的复杂、难以处理、很容易出现的小错误,这些让这样的代码很难调试。

三、半小时复现,AI却用了6小时

接下来,博主计划自己去复现Devin尝试做的任务。

他表示,自己用了大约36分钟的时间,就完成了Devin所做的事。

在下一张幻灯片中,实际上有一个需要修复的错误,在名为dataset.py的文件第33行。

问题是torch模块缺少一个名为underscore six的属性。

博主在谷歌上搜索了这个问题,找到了GitHub上的一个相关评论。

他按照该评论中的建议修改了代码行,确实解决了问题。

“解决这个问题总共花了我大约一分零七秒的时间,只需这么短的时间就修正了错误。这只是一个快速的谷歌搜索而已”。

以下是博主所做的修改的具体内容,这是最初状态和最后状态之间的差异。

这是requirements.txt文件的一处修改,最开始使用的是torch 1.4.0版本,博主使用了最新版本的torch 2.2.2。

右边是Devin视频中的最后一屏,左边是最后的输出。

它们两个大同小异。博主的框是黄色的,Devin是红色的。

根据Devin官方视频中的时间,从2024年3月9日3:25pm开始,一直到9:41pm完成,中间经历了6个小时。

最后再看下Devin完成工作的效果及其评价。

为了复制Devin的结果,博主只需要在云实例上设置合适硬件的环境,并实际运行两个带有正确路径的命令。

Devin看似做了很多工作,完成了很多任务。然而,只要你设置好环境,实际上只需要运行2个命令。些代码修正全都无关紧要,因为它们都是Devin自生成的代码。

在视频的最后,研究者You表示Devin做得好。而实际上,Devin完成的任务对于AI来说的确很酷。

四、AI程序员,全网沸腾

还记得Devin在三月初发布时,全网都在疯转这个AI。

在SWE-bench基准测试中,它的表现远远超过Claude 2、Llama、GPT-4等选手,取得了13.86%的惊人成绩。

它不仅能自主学习不熟悉的技术,端到端地构建和部署应用程序,自己改bug,甚至还能训练和微调自己的AI模型。

网友纷纷恐慌,Devin会偷走我们的工作吗?难道程序员真的不存在了?!

甚至,其背后十人初创团队的励志故事也被人挖了出来。

核心创始人首席执行官Scott Wu,以及弟弟Neal Wu等人共揽收十枚IOI金牌。

也就不到一个月的时间,各种AI程序员相继诞生。

比如,普林斯顿团队推出的SWE-agent,可以在真实的GitHub仓库里修bug,还有OpenDevin,Devika开源项目。

不过,关于AI程序员能否解决真实问题的能力,却还是应该持有保留态度。

因为,即便是借助了GPT-4 Turbo的能力,AI也并非万能。

参考资料:

https://x.com/0interestrates/status/1779268441226256500

https://www.reddit.com/r/programming/comments/1c1g0fn/debunking_devin_first_ai_software_engineer_upwork/

本文来自微信公众号:新智元 (ID:AI_era),编辑:桃子

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
Like (0)
Previous 2024年4月14日
Next 2024年4月14日

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日