大模型是不是有点太多了？

2023年10月18日 22:30 • 未来科技

Transformer吞噬世界

美国的初创公司、中国的科技巨擘、中东的石油大亨能够逐梦大模型，都得感谢那篇著名的论文：《Attention。

循环神经网络

RNN的出现点燃了学术圈的研究热情，日后Transformer的论文作者沙泽尔（Noam。

LLM技术发展树状图，灰色的树根就是Transformer[9]

2019年，OpenAI基于Transformer开发出了GPT-2，一度惊艳了学术圈。

上个月，AI业界爆发了一场“动物战争”。

一方是Meta推出的Llama（美洲驼），由于其开源的特性，历来深受开发者社区的欢迎。NEC（日本电气）在仔细钻研了Llama论文和源代码后，迅速“自主研发”出了日语版ChatGPT，帮日本解决了AI卡脖子难题。

另一方则是一个名为Falcon（猎鹰）的大模型。今年5月，Falcon-40B问世，力压美洲驼登顶了“开源LLM（大语言模型）排行榜”。

该榜单由开源模型社区Hugging face制作，提供了一套测算LLM能力的标准，并进行排名。排行榜基本上就是Llama和Falcon轮流刷榜。

Llama 2推出后，美洲驼家族扳回一城；可到了9月初，Falcon推出了180B版本，又一次取得了更高的排名。

Falcon以68.74分力压Llama 2

有趣的是，“猎鹰”的开发者不是哪家科技公司，而是位于阿联酋首都阿布扎比的科技创新研究所。政府人士表示，“我们参与这个游戏是为了颠覆核心玩家”^[4]。

180B版本发布第二天，阿联酋人工智能部长奥马尔就入选了《时代周刊》评选的“AI领域最具影响力的100人”；与这张中东面孔一同入选的，还有“AI教父”辛顿、OpenAI的阿尔特曼，以及李彦宏。

如今，AI领域早已步入了“群魔乱舞”的阶段：但凡有点财力的国家和企业，或多或少都有打造“XX国版ChatGPT”的计划。仅在海湾国家的圈子内，已不止一个玩家——8月，沙特阿拉伯刚刚帮国内大学购买了3000多块H100，用于训练LLM。

金沙江创投朱啸虎曾在朋友圈吐槽道：“当年看不起（互联网的）商业模式创新，觉得没有壁垒：百团大战、百车大战、百播大战；没想到硬科技大模型创业，依然是百模大战……”

说好的高难度硬科技，怎么就搞成一国一模亩产十万斤了？

Transformer吞噬世界

美国的初创公司、中国的科技巨擘、中东的石油大亨能够逐梦大模型，都得感谢那篇著名的论文：《Attention Is All You Need》。

2017年，8位谷歌的计算机科学家在这篇论文中，向全世界公开了Transformer算法。这篇论文目前是人工智能历史上被引数量第三高的论文，Transformer的出现则扣动了此轮人工智能热潮的扳机。

无论当前的大模型是什么国籍，包括轰动世界的GPT系列，都是站在了Transformer的肩膀上。

在此之前，“教机器读书”曾是个公认的学术难题。不同于图像识别，人类在阅读文字时，不仅会关注当前看到的词句，更会结合上下文来理解。

比如“Transformer”一词其实可翻译成“变形金刚”，但本文读者肯定不会这么理解，因为大家都知道这不是一篇讲好莱坞电影的文章。

但早年神经网络的输入都彼此独立，并不具备理解一大段文字、甚至整篇文章的能力，所以才会出现把“开水间”翻译成“open water room”这种问题。

直到2014年，在谷歌工作、后来跳槽去了OpenAI的计算机科学家伊利亚（Ilya Sutskever）率先出了成果。他使用循环神经网络（RNN）来处理自然语言，使谷歌翻译的性能迅速与竞品拉开了差距。

RNN提出了“循环设计”，让每个神经元既接受当前时刻输入信息，也接受上一时刻的输入信息，进而使神经网络具备了“结合上下文”的能力。

循环神经网络

RNN的出现点燃了学术圈的研究热情，日后Transformer的论文作者沙泽尔（Noam Shazeer）也一度沉迷其中。然而开发者们很快意识到，RNN存在一个严重缺陷：

该算法使用了顺序计算，它固然能解决上下文的问题，但运行效率并不高，很难处理大量的参数。

RNN的繁琐设计，很快让沙泽尔感到厌烦。因此从2015年开始，沙泽尔和7位同好便着手开发RNN的替代品，其成果便是Transformer^[8]。

相比于RNN，Transformer的变革有两点：

一是用位置编码的方式取代了RNN的循环设计，从而实现了并行计算——这一改变大大提升了Transformer的训练效率，从而变得能够处理大数据，将AI推向了大模型时代；二是进一步加强了上下文的能力。

随着Transformer一口气解决了众多缺陷，它渐渐发展成了NLP（自然语言处理）的唯一解，颇有种“天不生Transformer，NLP万古如长夜”的既视感。连伊利亚都抛弃了亲手捧上神坛的RNN，转投Transformer。

换句话说，Transformer是如今所有大模型的祖师爷，因为他让大模型从一个理论研究问题，变成了一个纯粹的工程问题。

LLM技术发展树状图，灰色的树根就是Transformer[9]

2019年，OpenAI基于Transformer开发出了GPT-2，一度惊艳了学术圈。作为回应，谷歌迅速推出了一个性能更强的AI，名叫Meena。

和GPT-2相比，Meena没有底层算法上的革新，仅仅是比GPT-2多了8.5倍的训练参数、14倍的算力。Transformer论文作者沙泽尔对“暴力堆砌”大受震撼，当场写了篇“Meena吞噬世界”的备忘录。

Transformer的问世，让学术界的底层算法创新速度大大放缓。数据工程、算力规模、模型架构等工程要素，日渐成为AI竞赛的重要胜负手，只要有点技术能力的科技公司，都能手搓一个大模型出来。

因此，计算机科学家吴恩达在斯坦福大学做演讲时，便提到一个观点：“AI是一系列工具的集合，包括监督学习、无监督学习、强化学习以及现在的生成式人工智能。所有这些都是通用技术，与电力和互联网等其他通用技术类似。^[10]”

OpenAI固然仍是LLM的风向标，但半导体分析机构Semi Analysis认为，GPT-4的竞争力源自工程解决方案——如果开源，任何竞争对手都能迅速复现。

该分析师预计，或许用不了太久，其他大型科技公司也能打造出同等于GPT-4性能的大模型^[11]。

建在玻璃上的护城河

当下，“百模大战”已不再是一种修辞手法，而是客观现实。

相关报告显示，截止至今年7月，国内大模型数量已达130个，高于美国的114个，成功实现弯道超车，各种神话传说已经快不够国内科技公司取名的了^[12]。

而在中美之外，一众较为富裕的国家也初步实现了“一国一模”：除了日本与阿联酋，还有印度政府主导的大模型Bhashini、韩国互联网公司Naver打造的HyperClova X等等。

眼前这阵仗，仿佛回到了那个漫天泡沫、“钞能力”对轰的互联网拓荒时代。

正如前文所说，Transformer让大模型变成了纯粹的工程问题，只要有人有钱有显卡，剩下的就丢给参数。但入场券虽不难搞，也并不意味着人人都有机会成为AI时代的BAT。

开头提到的“动物战争”就是个典型案例：Falcon虽然在排名上力压美洲驼，但很难说对Meta造成了多少冲击。

众所周知，企业开源自身的科研成果，既是为了与社会大众分享科技的福祉，同样也希望能调动起人民群众的智慧。随着各个大学教授、研究机构、中小企业不断深入使用、改进Llama，Meta可以将这些成果应用于自己的产品之中。

对开源大模型而言，活跃的开发者社群才是其核心竞争力。

而早在2015年组建AI实验室时，Meta已定下了开源的主基调；扎克伯格又是靠社交媒体生意发的家，更是深谙于“搞好群众关系”这件事。

譬如在10月，Meta就专程搞了个“AI版创作者激励”活动：使用Llama 2来解决教育、环境等社会问题的开发者，将有机会获得50万美金的资助。

时至今日，Meta的Llama系列俨然已是开源LLM的风向标。

截至10月初，Hugging face的开源LLM排行榜Top 10中，共有8个都是基于Llama 2所打造的，均使用了它的开源协议。仅在Hugging face上，使用了Llama 2开源协议的LLM已经超过了1500个^[13]。

截止至10月初，Hugging face上排名第一的LLM，基于Llama 2打造

当然，像Falcon一样提高性能也未尝不可，但时至今日，市面上大多数LLM仍和GPT-4有着肉眼可见的性能差距。

例如前些日子，GPT-4就以4.41分的成绩问鼎AgentBench测试头名。AgentBench标准由清华大学与俄亥俄州立大学、加州大学伯克利分校共同推出，用于评估LLM在多维度开放式生成环境中的推理能力和决策能力，测试内容包括了操作系统、数据库、知识图谱、卡牌对战等8个不同环境的任务。

测试结果显示，第二名的Claude仅有2.77分，差距仍较为明显。至于那些声势浩大的开源LLM，其测试成绩多在1分上下徘徊，还不到GPT-4的1/4^[14]。

AgentBench测试结果

要知道，GPT-4发布于今年3月，这还是全球同行追赶了大半年之后的成绩。而造成这种差距的，是OpenAI“智商密度”极高的科学家团队与长期研究LLM积累下来的经验，因此可以始终遥遥领先。

也就是说，大模型的核心能力并不是参数，而是生态的建设（开源）或纯粹的推理能力（闭源）。

随着开源社区日渐活跃，各个LLM的性能可能会趋同，因为大家都在使用相似的模型架构与相似的数据集。

另一个更直观的难题是：除了Midjourney，好像还没有哪个大模型能赚到钱。

价值的锚点

今年8月，一篇题为“OpenAI可能会于2024年底破产”的奇文引起了不少关注^[16]。文章主旨几乎能用一句话概括：OpenAI的烧钱速度太快了。

文中提到，自从开发ChatGPT之后，OpenAI的亏损正迅速扩大，仅2022年就亏了约5.4亿美元，只能等着微软投资人买单。

文章标题虽耸人听闻，却也讲出了一众大模型提供商的现状：成本与收入严重失衡。

过于高昂的成本，导致目前依靠人工智能赚了大钱的只有英伟达，顶多再加个博通。

据咨询公司Omdia预估，英伟达在今年二季度卖出了超30万块H100。这是一款AI芯片，训练AI的效率奇高无比，全世界的科技公司、科研机构都在抢购。如果将卖出的这30万块H100叠在一起，其重量相当于4.5架波音747飞机^[18]。

英伟达的业绩也顺势起飞，同比营收暴涨854%，一度惊掉了华尔街的下巴。顺带一提，目前H100在二手市场的价格已被炒到4万~5万美金，但其物料成本仅有约3000美金出头。

高昂的算力成本已经在某种程度上成为了行业发展的阻力。红杉资本曾做过一笔测算：全球的科技公司每年预计将花费2000亿美金，用于大模型基础设施建设；相比之下，大模型每年最多只能产生750亿美金的收入，中间存在着至少1250亿美金的缺口^[17]。

另外，除了Midjourney等少数个例，大部分软件公司在付出了巨大的成本后，还没想清楚怎么赚钱。尤其是行业的两位带头大哥——微软和Adobe都走得有些踉跄。

微软和OpenAI曾合作开发了一个AI代码生成工具GitHub Copilot，虽然每个月要收10美元月费，但由于设施成本，微软反而要倒亏20美元，重度用户甚至能让微软每月倒贴80美元。依此推测，定价30美元的Microsoft 365 Copilot，搞不好亏的更多。

无独有偶，刚刚发布了Firefly AI工具的Adobe，也迅速上线了一个配套的积分系统，防止用户重度使用造成公司亏损。一旦有用户使用了超过每月分配的积分，Adobe就会给服务减速。

要知道微软和Adobe已经是业务场景清晰，拥有大量现成付费用户的软件巨头。而大部分参数堆上天的大模型，最大的应用场景还是聊天。

不可否认的是，如果没有OpenAI和ChatGPT的横空出世，这场AI革命或许压根不会发生；但在当下，训练大模型所带来的价值恐怕得打一个问号。

而且，随着同质化竞争加剧，以及市面上的开源模型越来越多，留给单纯的大模型供应商的空间或许会更少。

iPhone 4的火爆不是因为45nm制程的A4处理器，而是它可以玩植物大战僵尸和愤怒的小鸟。

参考资料

[1] LLM Leaderboard Gone Wrong，Analytics India Mag

[2] NEC独自の大規模言語モデル（LLM）開発の裏側に迫る

[3] Spread Your Wings: Falcon 180B is here

[4] Abu Dhabi throws a surprise challenger into the AI race，The Economist

[5] TIME 100/AI

[6] OpenAI背后的领袖Ilya Sutskever：一个计算机视觉、机器翻译、游戏和机器人的变革者，机器之心

[7] 深度学习算法发展：从多样到统一，国金证券

[8] Your AI Friends Have Awoken， With Noam Shazeer，No Priors

[9] Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond，Jingfeng Yang、Hongye Jin等

[10] Andrew Ng: Opportunities in AI – 2023，Stanford Online

[11] GPT-4 Architecture， Infrastructure， Training Dataset， Costs， Vision， MoE，Semi Analysis

[12] IT 2023，赛迪顾问

[13] Open LLM Leaderboard，Hugging face

[14] AgentBench: Evaluating LLMs as Agents，Xiao Liu， Hao Yu等

[15] Who Owns the Generative AI Platform，a16z

[16] OpenAI Might Go Bankrupt by the End of 2024，Analytics India Mag

[17] AI’s $200B Question，Sequoia

[18] Nvidia Sold 900 Tons of H100 GPUs Last Quarter， Says Analyst Firm，tomshardware

[19] Character.ai’s Noam Shazeer: “Replacing Google – and your mom”，Danny In The Valley

本文来自微信公众号：远川科技评论（ID：kechuangych），作者：陈彬，编辑：李墨天

声明：该内容为作者独立观点，不代表新零售资讯观点或立场，文章为网友投稿上传，版权归原作者所有，未经允许不得转载。新零售资讯站仅提供信息存储服务，如发现文章、图片等侵权行为，侵权责任由作者本人承担。如对本稿件有异议或投诉，请联系：wuchangxu@youzan.com

Like (0)

用一种巧妙的方法，推进了已停滞20年的研究

Previous 2023年10月18日

美升级对华AI芯片制裁力度，影响有多大？

Next 2023年10月18日

水温80度：AI行业真假繁荣的临界点

我们从来没拥有过这么成功的AI主导的产品。

（这种分析统计并不那么准，但大致数量级是差不多的）

这两个产品碰巧可以用来比较有两个原因：

一个是它们在本质上是一种东西，只不过一个更通用，一个更垂直。

蓝海的海峡

未来成功的AI产品是什么样，大致形态已经比较清楚了，从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时“罢工”，全网打工人都慌了

美西时间午夜12点开始，陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载，忽然无法正常工作了。

因为发现AI用久了，导致现在“离了ChatGPT，大脑根本无法运转”。”

等等，又不是只有一个聊天机器人，难道地球离了ChatGPT就不转了。

大模型连崩原因猜想，谷歌躺赢流量激增6成

GPT归位，人们的工作终于又恢复了秩序。

未来科技 2024年6月5日
ChatGPT宕机8小时，谷歌Gemini搜索量激增60%

ChatGPT一天宕机两次

谷歌Gemini搜索量激增近60%

ChatGPT在全球拥有约1.8亿活跃用户，已成为部分人群工作流程的关键部分。

过去24小时内提交的关于OpenAI宕机的问题报告

图片来源：Downdetector

ChatGPT系统崩溃后，有网友在社交媒体X上发帖警告道：“ChatGPT最近发生的2.5小时全球中断，为我们所有依赖AI工具来支持业务的人敲响了警钟。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时大崩溃，AI集体罢工让全网都慌了

接着OpenAI也在官网更新了恢复服务公告，表示“我们经历了一次重大故障，影响了所有ChatGPT用户的所有计划。Generator调查显示，在ChatGPT首次故障后的四小时内，谷歌AI聊天机器人Gemini搜索量激增60%，达到327058次。

而且研究团队表示，“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关，显示出用户把Gemini视为ChatGPT的直接替代选项。

未来科技 2024年6月5日
深度对话苹果iPad团队：玻璃的传承与演变

iPad最为原始的外观专利

没错，这就是iPad最初被设想的样子：全面屏，圆角矩形，纤薄，就像一片掌心里的玻璃。

2010年发布的初代iPad

好在乔布斯的遗志，并未被iPad团队遗忘。

初代iPad宣传片画面

乔布斯赞同这一想法，于是快速将资源投入平板电脑项目，意欲打造一款与众不同的「上网本」，这就是iPad早年的产品定义。

iPad进化的底色

苹果发布会留下过很多「名场面」，初代iPad发布会的末尾就是一例。

未来科技 2024年6月5日
底层逻辑未通，影视业的AI革命正在褪色…

GPT、Sora均为革命性产品，引发了舆论风暴，但它在上个月发布的“多模态语音对谈”Sky语音，却由于声音太像电影明星斯嘉丽·约翰逊，被正主强烈警告，被迫下架。

华尔街日报也在唱衰，认为“AI工具创新步伐正在放缓，实用性有限，运行成本过高”：

首先，互联网上已经没有更多额外的数据供人工智能模型收集、训练。

03、

如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向，那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

但分歧点正在于此，电影公司希望通过使用AI技术来降低成本，但又不希望自己的内容被AI公司所窃取。

未来科技 2024年6月5日
KAN会引起大模型的范式转变吗？

“先变后加”代替“先加后变”的设计，使得KAN的每一个连接都相当于一个“小型网络”，能实现更强的表达能力。

KAN的主要贡献在于，在当前深度学习的背景下重新审视K氏表示定理，将上述创新网络泛化到任意宽度和深度，并以科学发现为目标进行了一系列实验，展示了其作为“AI+科学”基础模型的潜在作用。

KAN与MLP的对照表：

KAN使神经元之间的非线性转变更加细粒度和多样化。

未来科技 2024年6月5日
这个国家，也开始发芯片补贴了

//mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
[4]中国安防协会：欧盟批准430亿欧元芯片补贴计划：2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
[6]潮电穿戴：印度半导体投资大跃进，一锤砸下1090亿，政府补贴一半.2024.3.5https。

未来科技 2024年6月5日
大模型的电力经济学：中国AI需要多少电力？

这些报告研究对象（数字中心、智能数据中心、加密货币等）、研究市场（全球、中国与美国等）、研究周期（多数截至2030年）各不相同，但基本逻辑大同小异：先根据芯片等硬件的算力与功率，计算出数据中心的用电量，再根据算力增长的预期、芯片能效提升的预期，以及数据中心能效（PUE）提升的预期，来推测未来一段时间内智能数据中心的用电量增长情况。

未来科技 2024年6月5日
你正和20万人一起接受AI面试

原本客户还担心候选人能否接受AI面试这件事，但在2020年以后，候选人进行AI面试的过程已经是完全自动化的，包括面试过程中AI面试官回答候选人的问题，AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

以近屿智能与客户合作的校验周期至少3年来看，方小雷认为AI应用不太可能一下子爆发，包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

未来科技 2024年6月4日

大模型是不是有点太多了？

相关推荐