微软工程师爆料:GPT-6正在路上,差点把电网搞崩

二、最接近AGI的模型,与人类专家不相上下

去年8月,FeltSteam最先曝出OpenAI内部正在进行一个Arrakis多模态模型的项目,远超GPT-4,非常接近AGI。

GPT-5和GPT-6都不是AGI

FeltSteam表示,传说中的AGI,是Arrakis以外的东西。

三、十万个H100训GPT-6,被电力卡脖子

就在以上的爆料帖中,有一种说法是,GPT-6将于2025年发布。

GPT-6也被电力卡脖子了——部署十万个H100时,整个电网发生了崩溃。

就在刚刚,微软工程师爆料,10万个H100基建正在紧锣密鼓地建设中,目的就是训练GPT-6。

微软工程师吐槽说,团队在部署跨区域GPU间的infiniband级别链接时遇到了困难。

Corbitt:为何不考虑直接将所有设备部署在同一个地区呢?

微软工程师:这确实是我们最初的方案。但问题是,一旦我们在同一个州部署超过100,000个H100 GPU,电网就会因无法负荷而崩溃。

这是创业者Kyle Corbitt在社交媒体上,分享自己与一位微软工程师关于GPT-6训练集群项目的对话

没想到,GPT-5还没发,微软就已悄悄为OpenAI开始训练GPT-6了。

同在今天,一张“OpenAI内部时间线”图片在网上疯转。

图中清晰标注出:OpenAI早在2022年8月-10月之间开始了GPT-5(代号Arrakis)的训练,2023年4月GPT-4.5(代号Gobi)在训练中。

并且图中显示,GPT-6的测试,预计早在去年9月就开始了!

同时,关于GPT-5(Arrakis)的一个爆料帖,也随之浮出水面。

一、太长不看版

贴中爆出许多内幕消息。

比如,GPT-4.5因为能力不够,干脆被跳过,所以今年OpenAI会直接发GPT-5。

另外还有若干未经证实的消息(从上图中也可以看出),关于OpenAI手中握着的一大把模型——

比如,Arrakis/GPT-5在GPT-4不久后训练了3个月,于22年10月结束;在GPT-5之后,GPT-4.5于23年4月完成训练。

最劲爆的消息当然就是,现在GPT-6或许已经在训练中了。

但是,GPT-5并不是AGI,因为无法解决“量子引力”问题。同理,GPT-6也不是AGI。

接下来,让我们一一盘点下,帖子中都有哪些信息点。

二、最接近AGI的模型,与人类专家不相上下

去年8月,FeltSteam最先曝出OpenAI内部正在进行一个Arrakis多模态模型的项目,远超GPT-4,非常接近AGI。

Arrakis项目被首次提及,是名叫FeltSteam的网友最先在Reddit一个评论区中爆料称,“Arrakis和Gobi都很酷。”

并且,他在r/singularity板块中另一个问题下, 介绍了Arrakis的一些能力。

他提到,“这是一个无所不能的模型,可以输入文本、图像、音频和视频的任何组合”。

具体来说,Arrakis更多的细节包括:

1. 多模态模型;

2. 性能远超GPT-4;

3. 接近AGI;

4. 幻觉发生率明显低于GPT-4;

5. Altman正试图将Arrakis作为一种工具来推销,尽管它是有感情的;

6. 推理成本略低于GPT-4;

7. 非常优秀的自主智能体;

8. 训练一般数据是合成的。

与此同时,Jimmy Apples在社交媒体上曝出了OpenAI内部代号Gobi的项目——大规模多模态模型。

除了以上两个项目,一个代号名为“Sunshine”的项目逐渐浮出水面。

OpenAI这些秘密进行的项目,一时间引来许多网友的猜测和讨论。

随后,FeltSteam又爆出了更多的细节,Arrakis据称有125万亿参数,大约是GPT-4的100倍,并在2022年10月完成训练。

值得一提的是,Arrakis不是通过计算资源实现的,而是通过提高计算效率实现的。

目前,OpenAI内部也在使用Arrakis进行研究,不过整体员工水平肯定优于Arrakis。另外,与GPT-5相比,Gobi更接近GPT-4.5。

到了10月,FeltSteam再一次表示,一个比GPT-4大100倍的模型即将问世。

GPT-5将在2024年年中,或在2024年第三季度发布。

最近BussinessInsider的报道称,知情人士透露,GPT-5或将在今年夏天发布。与FeltSteam预测的时间几乎吻合。

而Arrakis是GPT-5一个更强大的候选者,在多个领域具备人类水平的专业知识能力。

1. GPT-5不是AGI

不过,Arrakis并不符合Altman对AGI的定义,即解决“量子引力”的问题。

量子引力,又称量子重力,是描述对重力场进行量子化的理论,属于万有理论之一隅;主要尝试结合广义相对论与量子力学,为当前物理学尚未解决的问题

但正如之前所说,Arrakis模型还是能够达到人类专家水平。

GPT-5和GPT-6都不是AGI

FeltSteam表示,传说中的AGI,是Arrakis以外的东西。

但是,为什么我们能在这么短的时间里,训练出一个125万亿参数的模型呢?

理论上来说,如果训一个1.75万亿参数模型需要4个月~5个月,那么如果训练一个大百倍的模型,应该需要几十年。

(目前已知,GPT-4在A100集群上训了100天,但是在训练之后,OpenAI又花了几个月时间对它微调和对齐。)

显然,要训125万亿参数的模型,不仅要投入原始计算资源,还要显著提高计算效率。

2. 用90%合成数据训练

另一个比较值得关注的信息是,据称Arrakis去年训练的数据集中约90%是合成数据。

此前,外媒报道称:

Ilya Sutskever的突破让OpenAI克服了在获取高质量数据以训练新模型方面的限制,而这正是开发下一代模型的主要障碍。这项研究涉及使用计算机生成的数据,而不是真实世界的数据,如从互联网上提取的文本或图像来训练新模型。

FeltSteam认为,OpenAI正遇到了扩展(scaling)的难题,因为仅仅扩展注意力和模型参数是远远不够的。

目前,GPT-4的训练已经穷尽了整个互联网的数据,还需要进行强化学习,甚至更多的数据。

另外,Arrakis还是一个非常出色的自主智能体。

所有关于OpenAI项目信息汇总目录一览表。

三、十万个H100训GPT-6,被电力卡脖子

就在以上的爆料帖中,有一种说法是,GPT-6将于2025年发布。

而就在爆料微软工程师对话的帖子中,也再次证实:微软正用10万个H100来帮OpenAI训练GPT-6!

有网友算了一下,如果十万个H100同时开启,功耗将达到70兆瓦,电网肯定撑不住。

而熟悉电力行业的网友说,一般大型电厂的输出功率将达到2000兆瓦,100兆瓦的负载其实并不大。但是突然在电网中增加100兆瓦的负载肯定会让电网系统出问题。

核能也许是唯一的办法了,电力短缺将直接限制未来GPU的发展。

此前,ChatGPT每天耗电已超50万千瓦时,登上了热搜,足见AI“吃电”非常凶猛。

根据波士顿咨询集团的分析,到2030年,数据中心的用电量预计将增加两倍,相当于为大约4000万美国家庭供电所需的电力量

没想到,马斯克预言的由AI导致的电力短缺,这么快就卡住AGI的脖子了。

马斯克:“现在AI对算力的需求差不多每半年就会增加10倍,马上会超过宇宙的质量。芯片短缺缓解后,马上就会出现电力短缺。如果电网输出100千伏~300千伏的电压,然后必须一路降压至6伏,未来会出现变压器短缺。”

包括Sam Altman在内的越来越多的AI行业大佬表示,AI的第一性原理,最重要的部分就是能源和智能的转化率的问题。

人工智能是能源的无底洞,AI未来将会被能源卡脖子。

因为Transformer本质上不是一个能效很高的算法,所以在未来,能源将会是困扰AI发展的一个大问题。

对此,网友们表示,长期看好中国基建。

而在Altman看来,满足AI飙升能源需求的最有效方法,就是核聚变。

为此,他本人就在核聚变上投资了真金白银的数亿美元。

没有突破,就没有办法到达那里,我们需要核聚变。

然而,真要达成核聚变,却没那么快。

英国曼彻斯特大学核聚变研究员Aneeqa Khan表示,“在地球上重建太阳中心的条件是一个巨大的挑战”,可能要到本世纪下半叶才能准备就绪。

“核聚变已经为时已晚,无法应对气候危机。在短期内,我们可利用的是现有的低碳技术,比如裂变和可再生能源。”

国际能源署(IEA)最近的一项分析计算出,数据中心、某货和人工智能的电力消耗在未来两年内可能会翻一番。2022年,它们约占全球电力需求的2%。同时AI的需求将呈指数级增长,在2023年至2026年间至少增长10倍。

此外,除了电力的限制之外,网友还继续脑洞大开,认为散热也将成为一个问题。

10万块H100还会带来散热和空间堆叠的问题,其实最近3年这些问题一直都存在,未来还会越来越严重。

网友进一步调侃到,未来加拿大会成为AI大国,因为他们有取之不尽的寒冷且干燥的空气!这些在AI时代将会是宝贵的自然资源。

参考资料:

https://x.com/ai_for_success/status/1772701538705617167?s=20

https://twitter.com/ai_for_success/status/1772492362872168656?t=VDn6nXceeqOAuRZYi58vgA&s=19

本文来自微信公众号:新智元 (ID:AI_era),作者:新智元

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
Like (0)
Previous 2024年3月27日
Next 2024年3月27日

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日