OpenAI自研芯片,有何独特之处?

OpenAI自研芯片,有何独特之处

目前,自研芯片的科技公司已经有不少,那么OpenAI自研芯片会和谷歌、亚马逊等科技公司的自研芯片有什么不同呢。OpenAI在生成模型领域是领军企业,目前GPT系列模型仍然是大语言生成式模型中性能最好的模型,而且OpenAI在生成式模型领域有着多年积累,因此OpenAI对于目前生成式模型的各种设计方案有着深入的理解,这意味着OpenAI有足够的能力和积累做芯片-模型协同设计,能够根据芯片的特性去设计相应的模型,同时也可以根据模型的需求去明确芯片的设计指标,包括如何在计算单元、存储和芯片间互联之中做最优化的折中等。

近日,路透社报道称OpenAI正在考虑自研芯片。根据报道,自从去年开始,OpenAI已经开始在为人工智能模型训练芯片缺货(即Nvidia GPU供货紧张)的问题开始考虑对策,而目前正在积极准备自研芯片以满足未来对于人工智能芯片的需求。

事实上,不久之前OpenAI的CEO Sam Altman曾公开表示Nvidia GPU缺货对于OpenAI以及整个人工智能行业都存在着很大的影响。

另外,从今年开始OpenAI开始招募硬件相关的人才,官方网站上有数个软硬件协同设计的职位在招聘,同时在今年九月OpenAI还招募了人工智能编译器领域的著名牛人Andrew Tulloch加入,这似乎也在印证OpenAI自研芯片方面的投入。

OpenAI官方对此事拒绝发表评论,但是如果这件事最后落地的话,OpenAI将会是继谷歌、亚马逊、微软、特斯拉等之后又一个加入自研芯片行列的硅谷科技巨头。

OpenAI为什么要自研芯片

如前所述,OpenAI自研芯片的主要动力是GPU缺货。更具体地说,是因为无论是购买Nvidia的GPU,还是使用基于GPU的云服务,价格都太贵,尤其是考虑到OpenAI未来模型训练需要的算力可能还会指数级提升。

OpenAI从数年前开始就布局生成式人工智能,而在去年的GPT-3以及去年下半年的ChatGPT公布后,由于这些生成式大语言模型的能力在过去数年内得到了大幅提升并且到达了可以和人类实现有意义的对话的地步,OpenAI一举成为了人工智能领域的领头羊,而生成式人工智能预计将是未来几年内对于人类社会影响最大的技术。

根据路透社的报道,OpenAI去年录得收入2800万美元,而总体亏损为5.4亿美元;而OpenAI巨大的亏损背后,主要原因就是算力开销。值得注意的是,5.4亿美元的损失还是在生成式人工智能火爆前夕的2022年;在未来算力开销可能会指数级提升,这主要由于:

  • 大模型竞争更激烈,模型进化速度变快,需要的算力快速提升:除了OpenAI之外,谷歌等科技巨头也在力推自己的大模型,这使得大模型的进化速度显著变快,未来预计一个季度到半年就要更新一代,而最尖端模型需要的算力估计每年都会上升一个数量级

  • 大模型应用场景变得更广:目前,微软和谷歌已经在搜索和代码编写领域开始使用大模型,预计在未来会有更多的大模型应用场景,包括自动任务处理、多模态问答等等,而这些会让不同的模型数量大大提升,同时也大大提升了模型部署需要的总算力。

根据美国金融公司Bernstein的分析,如果ChatGPT的访问量达到谷歌搜索十分之一的水平(而这也是OpenAI未来的重要目标之一),那么每年OpenAI的GPU开销将达到160亿美元。而这样的开销,可能是未来OpenAI进一步规模化的一个重要瓶颈。

那么,OpenAI自研芯片,将能把成本节省多少呢?

目前,一台使用八卡Nvidia H100 GPU的服务器采购成本约为30万美元,加上云服务商的溢价使用这台服务器三年的总成本为100万美元左右(这是AWS的官方报价,其他云服务商提供的价格应该在同一数量级);如果OpenAI能用自研芯片把这样的八卡服务器的成本降低到10万美元以下,将会大大降低其成本。

另一方面,如果自研芯片成功的话,在大规模部署的情况下单张加速卡的成本控制在1万美元以下应该很有希望,也即八卡服务器的成本控制在10万美元之下并非遥不可及。

OpenAI自研芯片,有何独特之处

目前,自研芯片的科技公司已经有不少,那么OpenAI自研芯片会和谷歌、亚马逊等科技公司的自研芯片有什么不同呢?

首先,OpenAI的自研芯片纯粹是为了自己的模型训练使用,这一点和谷歌、亚马逊等自研芯片并且目标放在云端服务器上供客户使用的商业模型不一样。

对于谷歌、亚马逊等自研芯片供云服务客户使用的场合来说,由于用户使用模型的场景并不明确,使用的软件栈不确定、具体训练的模型也不确定,因此需要在芯片设计上满足兼容性的需求,而这样兼容性的考虑往往会以牺牲每个训练任务的效率和性能为代价。

相反,OpenAI自研芯片只是为了自己使用,而且训练的模型非常明确:就是以Transformer为基本组件的大语言模型,而且使用的软件栈也完全控制在自己手里,因此可以确保设计有非常高的针对性。

第二点不同在于OpenAI对于模型有非常深入的理解。OpenAI在生成模型领域是领军企业,目前GPT系列模型仍然是大语言生成式模型中性能最好的模型,而且OpenAI在生成式模型领域有着多年积累,因此OpenAI对于目前生成式模型的各种设计方案有着深入的理解,这意味着OpenAI有足够的能力和积累做芯片-模型协同设计,能够根据芯片的特性去设计相应的模型,同时也可以根据模型的需求去明确芯片的设计指标,包括如何在计算单元、存储和芯片间互联之中做最优化的折中等。

最关键的是,OpenAI对于未来几年的生成式大模型的路线图有着行业中最明确的规划,这意味着即使自研芯片需要数年的时间,也不用过于担心芯片真正量产后已经无法赶上模型更新的局面。

从这个角度来说,OpenAI的自研芯片和谷歌以及亚马逊都有很不一样的地方,但是和特斯拉的Dojo系列自研模型训练芯片却有相似之处;而和特斯拉又不一样的是,OpenAI对于模型训练的需求显然会远高于特斯拉,而这样的自研芯片的重要程度对于OpenAI来说也会更高。

这些OpenAI的独特之处,让它有机会实现使用非常规专用设计完成的高性能芯片。

最近,Nvidia在官方博客中对于其GPU的性能提升规律做了分析:Nvidia的GPU算力在不到十年提升了1000倍,根据分析在1000倍算力提升中,计算精度的优化(即使用16位甚至8位浮点数来取代原本的32位浮点数计算)并且搭配专用的计算模块实现了16倍的性能提升,而芯片架构领域和编译器的协同优化又提供了12.5倍的性能提升,而另一方面半导体工艺带来的性能提升只有两倍。

由此可见,在高性能计算芯片领域,算法和芯片架构协同设计(包括模型算法和编译器算法)才是主要的性能提升动力(也即Huang‘s Law),而从这一角度来说,OpenAI确实处于一个非常有利的地位,凭借着其对于算法的深刻理解,OpenAI可望可以充分利用Huang’s Law,从而在未来几年内实现高性能计算芯片的设计。

OpenAI自研芯片的挑战

OpenAI自研芯片除了有自己的优势之外,当然也有挑战。

OpenAI自研芯片的目标很明确,就是用于大模型的高算力芯片。高算力芯片的首要挑战就是其复杂度,从芯片设计角度,高性能计算芯片中的计算单元、存储访问以及芯片间的互联都是需要仔细考虑。

例如,为了能满足大模型的需求,芯片大概率会使用HBM内存;为了实现芯片的高能效比和规模化,预计会在先进工艺上搭配芯片粒等技术实现高良率;大模型通常会使用分布式计算,因此芯片间的互联就显得至关重要(Nvidia的NVLINK和InfiniBand技术对于GPU来说非常重要,OpenAI也需要类似的技术)

这些芯片设计组件每一个都需要有相当经验的团队来实现,而把这些组件集成在一起也需要非常优秀的架构设计来确保整体性能。OpenAI如何在短时间内组建一个有经验的团队来做这些具有挑战性的设计将是一个重要的挑战。

除了芯片设计之外,如何确保软件和硬件协同工作,或者换句话说如何设计一个高性能的编译器以及相关软件生态是OpenAI的另一大挑战

目前,Nvidia GPU的一个重要优势就是因为其CUDA软件系统,经过十多年的积累后已经有很高的性能以及兼容性。OpenAI的自研芯片中,编译器系统也需要实现CUDA这样的高性能才能完全利用芯片的算力。与其他针对云服务的科技公司自研芯片不同,OpenAI的芯片主要是供自己使用,因此无需太担心生态和对于用户模型支持度的问题,但是在编译性能上也需要达到和Nvidia的CUDA接近才行。

事实上,OpenAI在这个领域从早些时候已经开始投入。今年七月OpenAI公布了自己的基于开源Triton语言的人工智能模型编译方案,可以把Python代码通过编译为使用开源Triton语言的中间代码(intermediate representation,IR),然后再使用Triton编译器和LLVM编译器编译到PTX代码,从而可以直接在支持PTX的GPU以及人工智能加速器上运行。从这个角度看,OpenAI对于编译器的投入或许就是其自研芯片的先声。

最后,芯片的具体生产也会是一个挑战。如前所述,OpenAI大概率会使用先进工艺节点和高级封装技术来实现,因此如何确保生产的良率,以及更重要的是,如何在高级封装和先进工艺节点产能仍然有可能紧张的几年内获得足够的产能以量产,也是一个需要解决的问题。

考虑到这三个挑战,我们认为,OpenAI目前自研芯片的计划可能会是多步走。

首先,在技术团队和生产问题没有完全解决前,OpenAI可以选择和微软(其最大股东,同时也有自研芯片计划Athena)以及Nvidia(或者AMD)合作,选择半定制化芯片,例如OpenAI提供芯片需要支持的一些指标,甚至提供一些IP,而可以和这些合作方一起把芯片设计和生产出来。

而在技术团队和生产问题解决后,OpenAI可以选择大力投入自研的全定制芯片,从而完成最佳的性能和可控性。

本文来自微信公众号:半导体行业观察(ID:icbank),作者:李飞

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
(0)
上一篇 2023年10月8日
下一篇 2023年10月8日

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日