全球首个AI程序员问世,人类要失业了?

让 AI 诞生的职业,会因为 AI 失业吗?

初创公司 Cognition AI ,2 个月前才刚成立,一夜之间在 X 卷起了风暴,就因为他们一条浏览量上千万的推文:

今天,我们很高兴地向大家介绍,第一位 AI 软件工程师 Devin。

Cognition AI 团队藏龙卧虎,基本都是国际信息学奥林匹克竞赛金牌选手。

代码构建了互联网的地基,程序员至今仍然是有门槛的高薪职业。这些智商数一数二的人类头脑,为什么要集合起来,手把手地教 AI 深入自己最擅长的领域?

第一位接近人类的 AI 程序员,究竟强在哪里

Cognition AI 对于 Devin 的定义是:世界上第一位完全自主的 AI 软件工程师。

先抛开技术参数,看看 Devin 可以做些什么。

Devin 还没有开放使用,只能通过邮箱提交申请,所以我们现在看到的是官方给出的案例,以及少数第三方开发和产品人员的评价。

先从 Cognition AI 自己开始,他们想让 Devin 完成一个任务:测试大语言模型 Llama 在三个 API 提供商上的性能。

他们发了一段用自然语言写的提示词,接下来,双手离开键盘,一切都交给 Devin。

Devin 先是制定了一个步骤清晰的计划,然后就开始像人类程序员一样写代码。

Devin 决定使用浏览器打开 API 文档,读取并学习如何接入每一个 API。

过程中出现了一个意外的 bug,Devin 表示不慌,哪里有错就解决哪里,添加了一个调试打印语句,通过日志中的错误信息找出修复 bug 的方法。

最终,Devin 构建和部署了一个可视化的网站,既完成了任务,结果又赏心悦目,走进阅卷老师的心坎里。

根据 Cognition AI 的博客,Devin 还能完成更加复杂的任务,并且有超强的学习和调整能力。

甩一篇文章的链接给 Devin,里面介绍了如何通过 ControlNet 等插件,在 AI 图像里嵌入精准的文本。

这本来是 Devin 不熟悉的技术,但它通过自行阅读和学习知识,三下五除二输出了带有用户英文名字的电脑壁纸。

请 Devin 制作一个互动网站,Devin 按照用户的要求,不厌其烦地修改和完善,改进初始化页面、加快帧速率、响应不同大小的窗口。

然后,Devin 将网站部署到 Web 开发平台 Netlify,省时省力省心,只把愉快玩耍的部分留给人类。

除了“冲锋陷阵”,Devin 也很适合“打野”。

面对一个需要不时维护的包含不同算法的开源存储库,Devin 拔剑四顾,帮忙查找和修复错误。比程序员更加火眼金睛。

甚至,Devin 有较强的自我管理意识,能够训练和微调自己的 AI 模型,人类程序员可以把它晾在一边,1 个小时之后再回来看看,进展得怎么样了。

这位程序员真的晾了 AI 一个小时

Cognition AI 还想证明,Devin 不是一个自嗨的道具,所以他们试着在自由职业平台 Upwork 接了一个单,编写和调试代码来运行计算机视觉模型,但交给 Devin 完成。

Devin 有条不紊地设置代码仓库,解决版本冲突,从互联网下载图片供模型使用,采样结果数据,还编写了一份漂亮的报告,正中金主的下怀。

不仅如此,Cognition AI 在 X 骄傲地宣布,Devin 已经通过了一家行业领先 AI 公司的工程面试。

如果是一个刚入门的程序员,面对甲方的任务抓耳挠腮,叫天不应叫地不灵,不妨将任务需求发给 Devin,大神原来就在身边。

试水市场之后是同行比拼,Cognition AI 让 Devin 进行了一次编码基准测试 SWE-Bench,解决开源项目里真实存在的 GitHub 难题。

术业有专攻的 Devin 完全自力更生,端到端正确解决了其中的 13.86%。

乍看不高,比起之前模型在辅助下的最好成绩 4.8%,这已经是非常大的进步了,甚至远远超过了 GPT-4、Claude2 等一众前辈。

目前用过 Devin 的少数用户,给出的也基本是溢美之词。

在彭博社记者的实测中,Devin 从头开始构建一个网站,只要 5-10 分钟。同样的 5-10 分钟,Devin 还能重复创建基于 Web 的经典乒乓球游戏。

之所以说重复,是因为在这个过程里,彭博社记者输入了几次提示词,改进网站外观、乒乓球运动时的物理特性等等,Devin 有求必应。

计算机科学家 Silas Alberti 则发现,Devin 擅长项目原型设计、修复错误以及以图形形式显示复杂数据。

他甚至觉得,Devin 不能被称为“编程助手”了,更像一位独立工作的助理软件工程师,自主自发自治地帮人完成任务。

斯坦福大学机器学习专业博士生 Silas Alberti 也上手了 Devin,两周前用它构建了一个小型 SMS 网站摘要器,并通过 Twilio 部署,使用评价很接地气:

几乎就像一个人类同事!当 Devin 遇到问题,我给它建议时,就像在管理一名初级工程师。

体验之后,这位博士生提高了对自己的要求——成为更优秀的工程师,未来才能管理一支 Devins 团队。

梦幻华人团队打造,克服代码不是终点

Devin 背后的 Cognition AI,就像拔地而起的一座高山,在 2 个月前才成立。

10 名员工甚至没有固定的办公室,在硅谷的 Airbnb 和纽约的办公室之间奔波。

但就是这样一家公司,筹集了 2100 万美元的投资,一夜之间在 X 上火爆。

Cognition AI 的团队目前就 10 个人,华人面孔多,人才密集度过高——DeepMind、Waymo 等大厂的工作经历,10 枚国际信息学奥林匹克竞赛金牌。创始人则主要有三位。

首席执行官 Scott Wu,今年 27 岁,他的兄弟 Neal Wu 也在 Cognition AI 工作,两人都从青少年时期开始参加国际编程比赛,能力在专业圈子里非常出名,甚至让美国国家编程队胜过中国和东欧一筹。

首席技术官 Steven Hao,曾在负责训练 AI 系统的初创公司 Scale AI 担任资深工程师。

首席产品官 Walden Yan,曾就读于哈佛大学,疑似辍学中。

Scott Wu 认为,奥林匹克竞赛的经历就是他们团队的优势。

将编程技能教给 AI,本质上是一个复杂的算法挑战,让系统做出复杂的决策,预测未来的最佳路径,类似他们在竞赛中解决的问题。

Scott Wu 甚至用了一种很浪漫的说法:这就像多年来他们在脑海里玩的游戏。

然而,还没成为大公司,就有了大公司的病,和越来越封闭的 OpenAI 类似,Cognition AI 不对外公开技术细节,也不透露是构建了自己的模型,还是依赖现有的模型

他们只是泛泛地说,找到了一种 GPT-4 等大语言模型与强化学习技术结合的办法,让 Devin 具备了几个方面的能力。

首先,Devin 在推理和长期规划方面取得了突破,可以规划和执行需要数千个决策的复杂工程任务,并记忆每一步的上下文,还能不断学习和修复错误。

有了推理能力,AI 就能更像人。我们所熟悉的大语言模型,往往是系统根据概率,预测句子的下一个单词,或者代码的下一个片段。但具备推理能力意味着,AI 更加接近人类思考和解决问题的方式。

至于长期规划能力,这其实决定了 AI 能有多大用处。计算机科学家 Silas Alberti 实测发现,大多数编码助手在四五步之后就脱轨了,但 Devin 状态基本一直在线。

彭博社甚至表示,Devin 能在保持一致性的情况下,连续处理数百甚至数千个任务,这或许就是 AI 的“一心多用”吧。

其次,工欲善其事,必先利其器,Devin 配备了人类程序员使用的所有常见开发工具,包括沙盒计算环境中的命令行界面、代码编辑器和浏览器。

再者,Devin 积极地和人类协作,实时报告自己打算怎么做,用哪些命令和代码,任务完成到哪一步,并虚心接受反馈,用提示词提醒 Devin,它就会听劝并做出调整,按照你的需求和你共同完成一个项目。

Devin 的演示效果已经足够惊艳了,但克服代码不是 Cognition AI 的终点,而是一个开始。

Cognition AI 真正希望解决的是推理问题,让 AI 更加接近人类,然后在更广泛的学科里实现更多样的可能性。

文字、图像、视频、代码,还有什么是 AI 学不会的?

当 AI 做得更多,人类负责监督 AI 做得更多

程序员请 AI 代劳自己的工作,不只是 Cognition AI 一家的想法。

2021 年 6 月,GitHub、微软和 OpenAI,就在 GPT-3 的基础上推出了 AI 代码助手“Copilot”。

上个月,一家名为 Magic AI 的公司筹集了超过 1 亿美元,从头设计自己的模型和底层技术,构建“超人软件工程师”。

当 GPT-3.5 刚火的时候,有人认为:当你输入提示词时,你就是在为大语言模型编程。

我们随意地让 AI 生成一段文字、一张图片,也可以算入其中,但与此同时,真正的编程也因为 AI 变得更加普及,把我们带回了一个熟悉的话题:人类的饭碗会被抢走吗?

乐观地想,AI 程序员可以让程序员摆脱繁琐的、无聊的任务,做更加创造性的事情。

而对代码一窍不通但有脑洞的小白,也可以构建自己的网站、服务和应用程序。

反之,悲观主义者或许觉得,AI 程序员让程序员不再是个高薪行业。Cognition AI 评论区里就有人狂发表情包:作为一名软件工程师,我已经完蛋了。

OpenAI 创始团队成员、大神级人物 Andrej Karpathy 也在 X 上发表了自己的看法,软件工程自动化类似于自动驾驶的发展过程:

1.人类手动编写代码 ;2.GitHub Copilot 自动完成几行代码;3.ChatGPT 编写大块代码;4.代码差异越来越大,例如 Cursor copilot++ 风格;5…….

这个过程中,AI 做得更多,人类做得更少,但仍然担任监督的角色。

因为 Devin 的出现,接下来开发人员编写代码需要的工具,包括终端、浏览器、代码编辑器等,可能发生很大的改变,人工监督的抽象程度也会越来越高。

然而也不能高兴得太早,AI 的部分,以及用户界面和体验的部分,还有很多工作要做。人类如何监督,如何调试错误,如何引导 AI,如何用自然语言提出高级的命令,仍然等待解答。

深度学习大佬 François Chollet,观点则更加犀利而尖锐——软件工程不是复制和粘贴代码,而是开发和操作问题及其解决方案的心智模型,Devin 还没到这个境界。

软件工程的革命,或许近在眼前。至少目前,AI 还无法完全取代人类,因为访问过于火爆,Cognition AI 官网一度宕机,看来 AI 还无法做出不会崩溃的网页。

同时,Cognition AI 也还在招兵买马,对软件工程师和机器学习研究员求贤若渴。可见在眼下这个时刻,优秀的人类程序员,珍稀程度前所未有地高,还能再干票大的,为 AI 添砖加瓦,把更多同类甩在身后。

本文来自微信公众号:APPSO (ID:appsolution),作者:张成晨

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
(0)
上一篇 2024年3月13日
下一篇 2024年3月13日

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日