下岗?程序员暂时安全

自称有35年开发经验的美国工程师Carl在YouTube发布视频,称Devin的演示可能存在造假
 
Devin可能只是在“演”程序员。
 
虽然Carl认为Cognition在Devin的演示和实际操作中存在夸大的情况,但他也表示Devin在某些技术操作上表现出了令人印象深刻的能力。
 
Devin无辜,罪在炒作
 
Devin将他的创作者Cognition推到了风口浪尖。

在ChatGPT出现之前,“AI替代人类”的想法一直被认为是AI公司们的“科幻”噱头。然而,看到了大语言模型涌现出的超强能力后,人们真的开始有点担心自己的“饭碗”了,尤其是程序员。

 

2024年3月,初创公司Cognition展示了该公司的一款AI编程工具Devin。Cognition将Devin描绘为“世上首位完全自主的AI软件工程师”。

 

Cognition的演示视频中,Devin在只接受自然语言指令的情况下,就能从零开始构建应用程序。Devin还在众包平台Upwork上完成了一个实际的任务订单,不仅完成了计算机视觉模型的代码编写和调试工作,还在任务结束时编制报告。

 

Cognition甚至在社交媒体平台发文称:Devin已通过一家领先AI公司的工程师面试。

 

至此,“开发AI的人,最先被AI取代”的言论在网络快速升温。

 

然而,就在几天前,一位自称有35年开发经验的美国工程师Carl在自己的YouTube账号Internet of Bugs上发布视频,称Devin的演示可能存在造假。


自称有35年开发经验的美国工程师Carl在YouTube发布视频,称Devin的演示可能存在造假

 

Devin可能只是在“演”程序员?

 

目前,Devin 还没有开放使用,只能通过邮箱提交申请,所以外界对Devin的认知,基本都来自官方给出的演示视频,以及少数第三方开发和产品人员的评价。

 

第三方评价中,热度较高的就包括彭博社在3月12日发布的一篇对Cognition AI公司,及其中几位华人创始人的报道。这篇报道中提到,记者使用Devin在5-10分钟内从头开始构建了一个网站。报道还引用了一名试用过Devin的计算机科学家Silas Alberti对Devin的较高评价。

 

虽然质疑Devin造价的博主Carl并未对Devin进行实际测试。但他通过对Cognition AI发布的Devin实操视频进行分析,提出了演示中的多处疑似造假内容,包括:

1.演示视频中,Devin的很多操作其实并未实际上理解或正确完成任务。Devin生成的报告没有包含客户实际所需的信息。

 

2.在修复错误代码的时候,Devin还出现了“没有可能制造困难也要上”的问题。Carl指出,Devin修复的一些代码,是“人类永远不会犯”的错误。因此这些错误很可能并非来自客户的代码库,而是Devin自己造成的。

 

3.在技术上,Devin的表现也不是很好。有时会采用过时的方法处理文件,在Python环境中执行不适当的操作,甚至编写自己的低级文件读取循环而不是正确使用标准库。

 

4.视频看起来Devin 很快就完成了任务,视频创建者能够在大约30分钟内完成所请求的任务,但聊天中的时间戳显示,该任务持续了多个小时,甚至持续到第二天。

 

虽然Carl认为Cognition在Devin的演示和实际操作中存在夸大的情况,但他也表示Devin在某些技术操作上表现出了令人印象深刻的能力。例如:Devin能够自动更新和配置文件,以匹配所需的库版本。他认为随着技术的进步,AI工具像Devin这样的AI工具一点能做到完全理解和执行更复杂编程任务。

 

人类仍是AI编程的关键?

 

目前Devin还未上线,其能力是否真如Demo一样强,其实真假难辨。

 

不过可以肯定的是,虽然AI的确能帮助人类编程,但主流观点仍不认为AI可以替代人类。

 

 “AI远没有外界传闻的那么聪明,要理解业务逻辑都需要大量反复地沟通,别说干活了。”一位关注AI编程的开发者告诉虎嗅,目前很多程序员都在使用Copilot类的工具,但担心被快速替代的人并不多。

 

事实上,目前大型语言模型在工作中仍存在两个比较难解决的问题,一方面输入的信息不一定可以正确理解底层逻辑,可能需要与AI进行反复沟通。另一方面,AI输出的内容都很难避免错误和幻觉,在需要更严谨认真的工作中,没有人类的检查和监督,则会面临很大的风险。

 

人类程序员写程序的时候,结果基本是一定的,要么好,要么差。但大模型来了以后,就不好说了。”支付宝CTO陈亮表示,AI写程序的结果存在很大不确定性,“他可以写得比你好,也可能比你差。”这就需要人类程序员想办法去控制它或者去影响它。

 

陈亮认为,虽然不能像以前写程序一样确定输出结果,但可以通过翻译、语料、数据等去影响他,让AI有更大概率提供好的结果。

 

在Cognition刚刚发布Devin演示视频时,前特斯拉AI技术总监、OpenAI联创Andrej Karpathy,曾在X上发文评价表示:

 

“在我看来,自动化软件工程看起来与自动驾驶类似。自动驾驶的发展是:

 

1.首先人类手动执行所有驾驶动作

2.然后AI帮助保持车道

3.看到前车能减速

4.它也会变道

5.它也会在标志/红绿灯处停下并轮流通过

6.最终你会得到一个功能完整的解决方案,并不断提高质量,直到实现完全自动驾驶。

 

在软件工程中,进展的情况类似。都是人工智能做得更多,人类做得更少,但仍然需要监督:

 

1. 首先人类手动编写代码

2. 然后GitHub Copilot自动完成几行

3. ChatGPT写入代码块

4. 转向越来越大的代码差异(例如Cursor copilot++风格)

5….

 

Andrej Karpathy认为,Devin是一个令人印象深刻的演示,可能会推动编码工具的进步,包括终端、浏览器、代码编辑器等,以及人类监督。

 

程序员的AI危机是什么?

 

虽然Devin可能代替不了人类,但很多人类岗位确实已经在被AI威胁了。

 

“AI不一定取代人,但会用AI的人一定取代不会用AI的人。”

 

2023年以来,AI工具对工作的重要性上升到了新高度。

 

陈亮介绍说,目前60%的蚂蚁程序员在写代码时都用上了Codefuse全站使用Codefuse的蚂蚁程序员写的代码中,约12%的代码是由Codefuse生成的。

 

宜创科技的创始人宜博则讲述了一个更生动的例子。

 

“2023年初,我要求公司所有程序员必须会用ChatGPT写代码,一个月时间学习并考核,考核后平均效率提升了3-5倍。我们最强的一个架构师的编程效率基本上是原来的5到10倍。”

 

宜博说,使用Copilot类工具以前,架构师要先把客户需求拿过来梳理清楚,然后再安排5到10个人帮他干活,他要告诉这些人:前端这个框架你来做。后端这个接口你来写。

 

“现在不需要这样了,架构师现在想清楚之后,文档里写清楚,直接可以用ChatGPT把它弄出来。”一个10个人的团队把一件事情讲清楚,再做好,检查清楚,可能要一个礼拜。现在这个时间可能不到一天,甚至就几个小时就完成了。

 

Devin无辜,罪在炒作

 

Devin将他的创作者Cognition推到了风口浪尖。这家成立于2023年底的公司,目前已经收到了来自知名机构Founders Fund等约2100万美元的投资。该公司种子轮估值约3.5亿美元,如今估值已达20亿美元。

如今,随着Devin的“世界首个AI软件工程师”称号被Carl质疑是不实宣传,Cognition恐怕要面临一场公关危机了。

对于”虚假宣传”,Carl批评AI产品的宣传往往缺乏透明度,不如实展示产品的实际能力和限制,从而误导了公众和专业人士。

 

在过去一年中,爆火AI的“虚假宣传”案例确实数见不鲜。

 

其中最有名的就是“Google发布Gemini的演示视频”。 Google在其最新AI大模型Gemini发布的演示视频中,展示了经验的多模态能力。但后来该公司承认视频实际上是经过剪辑的,使用了静态图像和文字提示,而非实时动态处理。视频中减少了延迟,简化了Gemini的输出。

 

就在不久前,亚马逊推出的一项”无需结账”技术(Just Walk Out),亦被指出是人工“伪装”的人工智能。有报道指出这项技术并非完全依赖先进的AI和计算机视觉,而是由超过1000名印度工作人员在手动审核顾客的购物行为,确保结账的准确性。不过,目前亚马逊已否认了这种说法,并声称这些工作人员主要是在训练模型,帮助改进技术。

 

更早的案例中,也曾有国内某知名AI公司,被指在某大会现场把人类同传翻译的内容伪装成AI翻译内容,打上公司产品Logo展示。

 

在指证Devin造假的视频中,Carl呼吁制造商、媒体和使用者都应对AI技术持有怀疑态度,并进行必要的核实。Carl认为,这种夸大其词的做法不仅误导了公众,还为AI技术设置了不切实际的期望。

 

一些网友也对Carl的观点表示支持。

 

rayhere7925认为:许多这样的科技初创企业只有一个目标:赚钱。他们如何获得资金?通过投资者和/或炒作。我敢肯定,这种夸张的演示以及随之而来的所有文章和影响者视频,一定说服了某些地方的投资者向这家公司注资——这正是这家公司的目标。如果这意味着可以赚更多的钱,公司会撒谎(如果他们能侥幸成功的话)。这家公司为了炒作和吸引投资者而撒谎也就不足为奇了。

 

Apexphp则认为:现代新闻业的问题在于,过去撰写技术文章的人通常对该领域有一定的了解,他们知道专业术语的含义,能够阅读自己写作领域的科学论文,并理解其中的大部分内容。但现在,我们只有一群按篇酬付费的人,他们在互联网上找到有趣的标题,然后简单写几句话,因为他们所在的公司支付的费用与他们为一篇撰写精良、经过深入研究的文章支付的费用相同,所以他们也就没必要多费心了。

 

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
(0)
上一篇 2024年4月14日
下一篇 2024年4月14日

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日