AI程序员Devin:通过了面试,但不一定适合职场

一、编程界的奥林匹克“梦之队”

Devin背后的公司Cognition。

出任Cognition AI公司CEO的是Scott。

Cognition AI的CTO由Steven。

公开资料显示,此前,Cognition AI已经获得了彼得·蒂尔的Founders。AI,彼得·蒂尔也给予高度评价,认为这家公司会成为下一个人工智能领域的超级公司,未来必将与OpenAI、DeepMind和Scale。

昨天,AI圈上演了第一场“大男主爽文”:

一个少年成名的编程天才,组建起仅有10人的编程界奥林匹克“梦之队”,在全球瞩目的科技风暴正中心创办了一家公司。成立不到两个月,其推出的第一款产品还未正式上线就火爆全球,并获得硅谷风投大佬上千万美金投资。

故事的主角,就是美国人工智能初创公司Cognition AI和它的CEO Scott Wu。

3月13日,Cognition AI在 X 上推出了全球首个AI软件工程师Devin。

Devin是一个自主代理(Autonomous Agent),掌握全栈技能,能自主学习不熟悉的技术,端到端地构建和部署应用程序,自己改bug,甚至还能训练和微调自己的AI模型。

Cognition AI只是在社交媒体上发布了一段演示Demo,就引来了全球码农们的高度关注。因为Devin真的颠覆了人们对开发工具的认知。

其中,最惊艳的能力是,用户只需在Devin界面输入一句指令,它就能端到端处理整个开发项目。

在SWE-bench基准测试中,它无需人类帮助,可解决13.86%的问题。相比之下,GPT-4只能处理1.74%的问题,且都需要人类提示告知处理哪些文件。

据介绍,Devin已经成功通过一家AI公司的面试,并在Upwork上完成了实际工作。一位网友在和Devin“交手”27分钟后,评论道:“AI Agent的时代已经开始。”

Devin的出现让一众程序员在深度兴奋、恐慌中开始好奇:是谁创造了Devin?它真的能够取代程序员吗?

一、编程界的奥林匹克“梦之队”

Devin背后的公司Cognition AI十分神秘,据彭博社报道,这家公司2个月前才正式成立。就连X上的官方账号都是今年1月注册使用。

Cognition AI的长期目标是通过解决推理问题,在广泛的学科领域解锁新的可能性,而“代码仅仅是开始”。公司致力于推动AI技术的发展,并通过其产品改变人类与软件的互动方式。

据“甲子光年”了解,Cognition AI的核心创始团队由3人组成,分别是Scott Wu、Steven Hao和Walden Yan。从3人的名字就不难看出,他们都是华人。

正如他们的公司一般低调,这三位创始人的履历也都十分神秘,并未有过多披露。“甲子光年”仅在网上找到了少量信息。

出任Cognition AI公司CEO的是Scott Wu,年仅27岁。他的亲兄弟Neal Wu也在这家公司工作。从上中学开始,Scott Wu就展露出自己在数学方面的天赋,开始参加数学竞赛。

后来,在亲兄弟Neal Wu的影响下,Scott Wu逐渐迷恋上了竞争性编程。二人均成为了竞争性编程领域的传奇人物。兄弟俩从青少年时期就是国际编程比赛的“常胜”选手。

Scott Wu曾在2014年举办的IOI(国际奥林匹克信息学竞赛)上以满分的成绩获得第一名。

自小展露的编程天赋,不仅让Scott Wu在学习和竞赛上取得了傲人的成绩,还让他在商业上也领先于同龄人。

事实上,Cognition AI并不是Scott Wu参与创办的第一家公司。近期,社交媒体上有人公开了一份Scott Wu四年前的一篇博客。根据博客中的描述,4年前Scott Wu曾是LunchClub的联合创始人及CTO。

在上次创业中,Scott就展现出了过人的技术能力和商业头脑。Lunchclub是一个以人工智能和机器学习内容为主的美国社交平台,曾获a16z 400万美元的种子轮融资,用于在线下连接专业人士。2020年,Lunchclub筹集了由Coatue和Lightspeed Venture Partners领投的2400万美元A轮融资,估值超过1亿美元。

Cognition AI的CTO由Steven Hao担任。Steven毕业于麻省理工学院,此前是Scale AI的资深工程师,专注AI系统研发。在Scale AI之前,Steven曾在Jane Street、DE Shaw和Quora工作过。

与Scott Wu一样,Steven Hao也同样是IOI金牌的获得者,并且还获得过Codeforces和ACM-ICPC等编程竞赛的最高荣誉。他的个人项目包括协作填字游戏网站Down For A Cross以及集合的网络实现。

而Walden Yan则是Cognition AI的首席产品官。据悉,为了创办Cognition AI,Walden Yan不惜背着父母从哈佛辍学。对此,Walden本人回应道:“离开学校创办Cognition是我做过最简单的决定。”

作为一家刚刚成立不到3个月的初创公司,Cognition AI甚至没有一间固定的办公室,团队仅有的10名员工分布在硅谷的Airbnb和纽约的家庭办公室。

但正是这样一个连办公室都没有的10人小团队,却打造出了让世人瞠目结舌的AI开发者Devin,可见这支小团队的强大实力。除了三位核心创始成员之外,团队其他成员曾在Cursor、Scale AI、Lunchclub、Modal、Google DeepMind、Waymo、Nuro等多家知名公司任职。

值得一提的是,这个10人的团队共获得过10枚IOI金牌,平均人手一块,足见他们在编程和技术方面的能力。

Scott Wu表示,这样的团队背景正是Cognition AI的优势。

“教人工智能成为一名程序员是一个非常深入的算法问题,需要系统做出复杂的决策,并展望未来的几步,以决定应该选择什么路线,”Scott Wu说, “这几乎就像我们多年来一直在脑海中玩的游戏,现在有机会将其编码到人工智能系统中。”

目前,Scott Wu并未对媒体透露太多Devin的技术细节,只是透露团队找到了将LLM与强化学习相结合的独特方法。“这非常依赖于模型和方法,以及如何让事情恰到好处地协调一致。”

二、彼得·蒂尔力挺Cognition AI

就是这样一支没有固定办公室、但个个都是技术大神的精干团队,吸引到了美国顶级大佬的注意。

公开资料显示,此前,Cognition AI已经获得了彼得·蒂尔的Founders Fund基金领投的2100万美元A轮融资。另外根据彭博社记者报道,前Twitter高管Elad Gil也参与了对Cognition AI的投资。

放眼美国乃至全球的创投市场,彼得·蒂尔都称得上是绝对的传奇。他曾是国际知名支付工具PayPal创始人,如今是美国硅谷著名投资人,以投资眼光毒辣著称,被硅谷誉为“大佬背后的大佬”。

投资圈一句经典名言——“竞争是留给输家的。如果你想创造和获取持久的价值,那就建立一个垄断企业。”正是出自彼得·蒂尔之口。

在转型职业投资人前,彼得·蒂尔就曾是一位极具传奇色彩的创业者。

2002年,彼得·蒂尔以15亿美元的价格将其创办的PayPal卖给eBay,个人净赚5500万美元。此后,PayPal核心员工陆续离职创业,打造出当今硅谷一大批企业翘楚,这些人也因此被誉为硅谷“PayPal黑帮”。

其中,二号人物埃隆·马斯克(Elon Musk)后来创立了特斯拉,以及美国太空探索技术公司SpaceX;前执行副总裁雷德·霍夫曼(Reid Hoffman)创立职场社交媒体领英(LinkedIn);联合创始人马克斯·列夫琴(Max Levchin)创办了社交游戏公司Slide,之后以1.82亿美元的价格卖给谷歌;杰里米·斯多普尔曼(Jeremy Stoppelman)创立美国最大的点评网站Yelp;技术人员查德·赫利(Chad Hurley)和陈士骏(Steve Chen)合伙创办YouTube。

“PayPal黑帮”成员创立的企业中,有7家市值超过10亿美元。

离开PayPal之后,彼得·蒂尔在2005年投资5000万美元创办Founders Fund(创始人基金)风险投资公司,专门投资那些最具技术领先性的前沿科技项目,布局领域包括航空航天、人工智能、高级计算、能源、健康和消费互联网等。

据说,彼得·蒂尔之所以给这家投资公司起名Founders Fund,是因为他认为,对于一家创业公司而言,它的成功与失败都取决于创始人。所以他干脆把公司名字起名为创始人基金,并且对于每个投资项目,也都秉承“援助不干涉的原则”,让创始人掌握自己的命运。

不难发现,彼得·蒂尔的做事风格颇为特立独行。这种个性甚至体现在公司选址上。作为一家科技投资公司,Founders Fund并没有选择大多科技风投扎堆的硅谷沙丘路,而是把公司开在了沙丘路北35英里的金门大桥边。

当然,在投资方面彼得·蒂尔也是“不走寻常路”。2011年,Founders Fund曾公开表达欢迎异想天开的创意,同时也嘲讽了推特(现为“X”)的投资者:“我们想要会飞的汽车,而不是140个字符。”

正是对于创始人改变科技、科技改变世界的偏执追求,让Founders Fund在早期投到了不少明星项目,其中Facebook、Spotify、Palantir、SpaceX、Airbnb、Lyft和Wish等,如今都是各自领域的巨头公司,为Founders Fund带来了可观的回报。

而在AI领域,彼得·蒂尔的投资眼光更是毒辣。

尽管Founders Fund在人工智能领域投出的项目并不多,但每一家都在AI界有着不可撼动的地位。

例如8年前推出AlphaGo,在全球点燃深度学习浪潮的DeepMind;2022年底推出ChatGPT,引爆当前大模型浪潮的OpenAI;以及将数据标注行业从“劳动密集”转为“技术密集”的Scale AI。

这些如今正在书写全球AI技术发展的顶级公司,背后都有Founders Fund的名字。

彼得·蒂尔分外钟情那些技术偏执狂——例如马斯克、扎克伯格、哈萨比斯、奥特曼。而Cognition AI CEO Scott Wu也不例外。

所以不难判断,被Founders Fund认可的Cognition AI,其未来发展也必将不可限量。

对于最新投出的Cognition AI,彼得·蒂尔也给予高度评价,认为这家公司会成为下一个人工智能领域的超级公司,未来必将与OpenAI、DeepMind和Scale AI齐名。

三、距离代替程序员还有3年~5年?

被硅谷顶级投资大佬看中,2个月前刚刚成立公司,做出全球首个AI程序员Devin,尽管还没正式对外上线,但已吸引了全球科技圈的围观。

Scott Wu和他10人小团队的经历,颇有爽文男主的意味。

连贯、稳定的推理能力是Devin最让人兴奋,也最令人“恐慌”的地方。

Devin在许多方面似乎确实远远领先于其他编码助理。用户只需给Devin发送一条指令,它就能够自动启动并完成这些工作。当Devin工作时,它会告诉用户它的工作计划,并显示它正在使用的命令和代码。

在Devin完成任务的过程中,用户可以提示其解决相应问题,它会在中途整合反馈。目前,大多数人工智能系统在类似的长时间工作中都很难保持连贯性并专注于任务,但Devin能够在不偏离轨道的情况下完成数百甚至数千个任务。

计算机科学家塞拉斯·阿尔贝蒂(Silas Alberti)也尝试过Devin,并表示这项技术是一次飞跃。据他描述,这不像是助理编写代码,而更像是真正的工人在做自己的事情。

“这感觉非常不同,因为它是一个可以为你做事的自治系统,”阿尔贝蒂表示,Devin擅长项目原型设计、修复错误以及以图形形式显示复杂数据。“其他助手在四五步后就脱轨了,但Devin几乎毫不费力地完成整套工作流程。”

“甲子光年”就Devin的横空出世访谈了多位国内技术从业者。国内部分从业者认为,尽管Devin看似“遥遥领先”,但依然要理性看待Devin。

始智AI wisemodel创始人兼CEO、清华校友总会AI大数据专委会副秘书长刘道全刘道全表示:“此前Wisemodel社区里讨论认为,代码是大模型最明确的应用方向之一,因此我们Devin的出现并不意外,这是迟早的事。”

“很多AI产品都是问世之前吹得非常厉害,但上线后感觉也就那样。现在Devin的演示视频看似能解决很多东西,但真正大规模应用是有局限的。首先是使用成本高;其次,目前来看,程序员的极限就是AI的极限。AI写出来的代码程序员看不懂,那也没有意义。”某AI初创公司工程主管告诉“甲子光年”。

从实际落地应用来看,一位云测试/AI数据标注公司CTO坦言:“在企业里做开发,真正写代码的时间可能只占20%,大部分时间都在理解、沟通客户需求,设计方案、查资料。因此,或许还需要3-5年时间,Devin之类的AI程序员才能够替代人类开发者的初级工作。”

对此,刘道全也表达了相似的观点:“Devin在完成很明确的任务上有优势,但谁来分配任务,以及在整体系统开发过程中,往往在具体的开发任务不是最难的,而是怎么把系统的整体架构搭起来,组成一个完整的系统更加关键。”

不过,在Cognition AI的介绍中,用AI写代码只是一个开始,“推理”才是Cognition AI真正的野心。

或许Cognition AI接下来在推理方面的后续成果更值得期待。

本文来自微信公众号:甲子光年 (ID:jazzyear),作者:刘杨楠,编辑:栗子

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
Like (0)
Previous 2024年3月14日
Next 2024年3月14日

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日