一切都在加速发生。当黄仁勋说“编程已经不再需要学习”的时候,人们没意识到事情会如此快的到来。
一个在得到用户需求后,完全不需要人再去参与的AI编程Agent“Devin”来了。就这么悄无声息突然来了。
先看几个例子感受一下。
首先是程序员们每天都在做的那些基础工作,开发,调试,debug,部署等等。Devin可以一气呵成自助完成。它拥有自己的shell、代码编辑器和浏览器等常见开发者工具,它们都集成在一个沙盒计算环境中,这样Devin就可以自己去调用。
在这些展示中,用户给出了一个自然语言描述出来的需求,接下来就跟看着一个程序员远程操作一样,Devin自己就开始各种开发动作,你能看到它打开代码编辑器,使用浏览器,进行debug,运行代码,检查代码,到最终部署完扔给你最终你需要的那个网站或应用。
这些工作以往只有程序员能做,现在谁都可以使用Devin来做了。
比如程序员们每天都在干的debug的工作,Devin只需你提供一个指向 GitHub 问题的链接,就会完成所有必要的设置和上下文收集。开发者展示了一个让Devin 自己解决 sympy Python 代数系统中关于对数计算错误的例子。在展示中,Devin 搭建了代码环境,重现了错误,并独立编码和测试了修复方案。
比如它能够端到端构建和部署应用程序。比如,当你告诉它你想要一个模拟生命游戏的交互式网站,它就可以自动的开始一步步实现,甚至最终把应用程序部署到 Netlify。
而且,对于今天最热门的大模型技术,它也能独立完成。比如它仅仅需要你发给它一个指向 GitHub 研究仓库的链接,就自主为一个大语言模型完成了微调。甚至在Upwork上交给它一个真实的工作任务,它也可以编写并调试运行计算机视觉模型的代码。最后甚至抽样结果数据,编写了一份报告给你。
还有一个例子更是让人惊讶。
大家都见过的隐藏在一幅背景图里的AI生成的艺术字吧,这个的难点在于它对于传统的软件工程师来说,也需要花一定时间了解和学习新的工具才能实现,结果,Devin只靠着自己阅读博客,就学会了这个全新的陌生技术,在Modal上运行起来了ControlNet,完成了这个需求。
Devin背后的初创公司Cognition AI在3月12日发布了一系列展示,并首次介绍了这款产品。
在官方博客中,它被描述为下一个时代的软件开发助手,不仅仅提供编码建议和自动完成一些任务,而是能够独立完成整个软件项目。这意味着Devin与其他大模型的编程能力不同,它更加的自主,在编程任务上的能力更加全面。
“通过我们在长期推理和规划方面的进步,Devin 能够规划并执行需要数千个决策的复杂工程任务。Devin 能够在每一步回忆起相关的上下文,随时间学习,并纠正错误。”
“Devin是世界上第一位完全自主的 AI 软件工程师。”博客这样写道。
它是一个不知疲倦、技术娴熟的团队成员,无论是与你并肩作战还是独立完成任务供你审查,它都已准备好。有了 Devin,工程师们可以专注于更有趣的问题,工程团队可以追求更宏伟的目标。
团队强调,Devin是与人协同的Agent,它有“与用户积极协作的能力”。比如,它会实时报告开发进度,接受人类反馈,并根据需要与你一起进行设计选择。
同样的,作为一款大模型产品,它也展示了它模型的能力。
在基于真实世界编程任务进行测试的SWE-bench基准测试中,Devin在解决开源项目(如Django和scikit-learn)中的真实GitHub问题方面表现出色,正确解决了13.86%的问题,这一比例远超过当前的GPT-4和Claude等顶级模型。
尽管第一次发布,Devin背后的团队显然有备而来。对这家公司的报道接踵而来。
Devin背后的公司叫做Cognition AI,目前只有10个人,在硅谷和纽约办公,甚至都还没有自己的固定办公室,就已经从彼得·蒂尔领导的风险投资公司 Founders Fund 和其他知名投资者那里筹集了 2100 万美元,相当于人民币1.5亿的融资。
创始团队中,又是华裔面孔。Scott Wu为首席执行官,Steven Hao为首席技术官,Walden Yan担任首席产品官。其中Scott帮美国队拿到过国际编程奥赛的冠军,有和他一起参加过数学竞赛的人称他是个绝对的天才,“碾压所有人”。他14年前参加电视直播的数学竞赛的录像在推特上刷屏。比赛里他碾压式的展示了自己的数学智商。
Steven Hao此前是Scale AI的工程师,而Walden Yan是从哈佛大学辍学,甚至“还没有跟父母聊这个决定”。
看来硅谷又有了一个新的天才创业者故事。
在Devin发布的同时,Cognition也开始了宣传和招聘的工作。
Devin在推特上立刻引来一片关注。其中不乏大佬的点赞。
大神Karpthy称,Devin 是一个令人印象深刻的演示,它可能就是自动化编程接下来会发生的事情:协调开发人员编写代码所需的许多工具:终端、浏览器、代码编辑器等,以及人类监督,这些工具逐渐提高到更高的水平抽象。
“无论如何,软件工程有望发生重大变化。它看起来更像是监督自动化,同时用英语提出高级命令、想法或进展策略。祝团队好运!”
Perplexity 的创始人Srinivas表示惊叹,称它是真正意义上的第一个达到了人类水平门槛并可以可靠的工作的AI Agent。
但这款产品目前也依然没有全面对外开放,有开发者认为,这是因为它的生成依然很慢,而且成本昂贵,在成本降下来之前,雇用几个实习生来完成这些编程任务依然是最划算的选择。
不过,据使用过它的媒体称,Devin可以在5到10分钟内从零开始构建一个网站,它设法在大约相同的时间内重新创建了一个基于Web的小游戏。有测试过它的计算机科学家称:
“它已经不像是一个帮助编写代码的助手,更像是一个真正的工作者在做自己的事情。这感觉非常不同,因为它是一个可以为你做一些事情的自主系统,大多数其他助手在四五个步骤后就不行了,但Devin几乎毫不费力地在整个工作中保持连贯。”
在发布的推特下,现在越来越多的是一些程序员半开玩笑半恐慌的呼喊:
请不要抢走我的工作。
本文来自微信公众号:硅星人Pro(ID:Si-Planet),作者:王兆洋