禁止云计算厂商为中国训练AI大模型，美国图啥？

2024年1月29日 09:08 • 未来科技

只要有足够的人力、财力，任何公司都可以通过先抄LLaMA2、再租用GPT进行“蒸馏”的方法，在较短的时间内搞出一个像模像样的“自研大模型”，在测试中的表现甚至真能做到“与OpenAI只差半年到一年”（具体差多少取决于花了多少钱做“蒸馏”）。从商业或科技逻辑讲，美国商务部在此刻提议新的禁令，有点不太好理解：中国与美国在AI大模型方面的差距仍然很大，所谓“大模型从原子弹变成了茶叶蛋”纯粹是A股公司大股东为了减持而吹的牛，业内人士没人相信，美国人应该更不信。

美国商务部长吉娜·雷蒙多（Gina Raimondo）在2024年1月26日接受路透采访时宣布了限制外国客户，尤其是中国客户使用美国云计算厂商的服务训练AI大模型的计划。雷蒙多的原话是：“我们不能允许中国或者其他我们不希望的玩家使用我们的云服务训练他们的模型。我们引入了芯片出口禁令，但那些芯片正在被美国的云计算数据中心使用，所以我们需要考虑关闭这些渠道，以避免潜在的恶意行为。”（注：原文可参见1月27日的路透社电讯）

毫无疑问，上述举措把美国对华科技制裁推到了一个新的高度，对中国人工智能产业的潜在破坏力很大。虽然我不是芯片或人工智能方面的专家，但幸运的是，我在这些产业有很多朋友。在得知这个消息之后，我马上征询了他们的看法，学到了很多东西。他们普遍认为，美国商务部的新举措从宏观角度看是可以理解的，但是为什么要在这个时间点推出，就有些耐人寻味了。

过去一年多，中国的互联网大厂和科技公司自称在AI大模型领域取得了显著战绩，“与OpenAI的差距只有半年到一年”。就在前几天，周鸿祎还宣称“去年我们看大模型像原子弹，今年再看大模型像茶叶蛋”——从资本市场炒作的角度看，上述说法很有道理（尤其是有利于大股东离婚减持）；从技术研发的角度看，就完全不是那么一回事了。

事实上，中国科技行业对OpenAI的“赶超”，离不开下面三个因素的帮助：

第一，对境外开源大模型的吸收借鉴。

GPT-3以上的版本是不开源的，但是国外并不缺乏开源大模型可供借鉴（抄袭），其中最受欢迎的就是Meta于2023年2月发布的LLaMA，以及7月发布的LLaMA2。LLaMA本来只是有条件地对学术界开源，但很快遭到大规模泄露，Meta索性将其后续版本做成了全面开源。

LLaMA2有三个公开版本，分别拥有70亿个、130亿个和700亿个参数；Meta还宣布会在合适的时候公布更复杂的版本。虽然LLaMA2还是比不上GPT-4，但是作为一个借鉴（抄袭）的原点已经足够了。众所周知，国内一部分创业公司（名字就不点了）的“自研大模型”就是拿LLaMA2套皮的，就连参数名称都懒得改。

第二，通过租用GPT接口，对GPT模型参数进行“蒸馏”。

一个月前，外媒报道称字节跳动旗下产品，疑似因为调用GPT接口训练自己的大模型而被封号。其实这种事情，所有人都在做，圈内俗称“蒸馏”。所谓“蒸馏”，就是反复与GPT进行海量对话，通过GPT返回的数据对自己的模型参数进行调节；简而言之，就是让GPT帮你训练自己的模型。

只要有足够的人力、财力，任何公司都可以通过先抄LLaMA2、再租用GPT进行“蒸馏”的方法，在较短的时间内搞出一个像模像样的“自研大模型”，在测试中的表现甚至真能做到“与OpenAI只差半年到一年”（具体差多少取决于花了多少钱做“蒸馏”）。很可惜，通过这种方法搞出来的大模型永远无法赶超OpenAI，就像在考试时抄学霸试卷的学生永远不可能超过学霸——对了，还得小心别被监考老师抓住。

第三，租用Azure、AWS等海外云计算服务，解决算力瓶颈。

从2022年开始，美国不断收紧对华芯片出口禁令。虽然英伟达多次推出了对华“特供版”GPU，但是美国商务部随即补上了漏洞，现在可供利用的漏洞已经很小了。公允地说，哪怕不考虑芯片禁令，中国公司也很难抢到足够的GPU，因为英伟达的高端GPU一直供不应求，亚马逊等北美大厂经常是“出了新型号先抢一万张”，来自中国的客户的优先级肯定不会太高。

我们知道，AI大模型使用的算力分为“训练”和“推理”两种，前者要求明显更高。因此，中国科技公司普遍采取了“训练与推理分开”的模式，把一大块训练业务交给微软Azure、亚马逊AWS、谷歌GCP等北美云计算大厂去做，因为只有它们有足够的高端算力；至于推理，则可以全部放在国内（合规要求也必须在国内），甚至在硬件端搞一些“国产替代”。这个玩法，实际上是变相绕过芯片禁令，芯片虽然没进口到中国，相关算力却是中国公司在使用。美国监管当局肯定早已注意到了这里存在的漏洞，只是以前没管，现在决定出手管了。

当然，美国商务部的提议会不会诉诸实践、合不合法（此处是指美国的国内法），是值得争议一番的。不过在中美科技竞争的大背景下，这个提议得到实施的概率很大，美国云计算厂商的大门早晚是要对中国客户关上的。真正需要回答的问题有两个：

为什么美国要在这个时候推出新的禁令？
那些认真想赶超GPT的国内厂商，接下来去哪里找算力？

先说第一条。从商业或科技逻辑讲，美国商务部在此刻提议新的禁令，有点不太好理解：中国与美国在AI大模型方面的差距仍然很大，所谓“大模型从原子弹变成了茶叶蛋”纯粹是A股公司大股东为了减持而吹的牛，业内人士没人相信，美国人应该更不信。允许中国公司租用美国云计算资源，在短期内不会影响硅谷的科技霸权，反而会带来一笔不菲的收入。芯片禁令对中国AI研发的限制已经够大了，有必要更进一步、把事情做绝吗？微软、亚马逊这些云计算巨头为什么不阻止美国商务部把事情做绝呢？

对于上面的疑问有两种解释路径。一种是政治解释：今年是大选年，美国两党在互相比较谁对中国更强硬，“战场州”的选民普遍对全球化没什么好感，此时加强对华科技禁令是一张比较好的牌。至于硅谷科技巨头，这几年一直是它们春风得意、收入和利润猛增的时刻，失去一点来自中国客户的云计算收入应该不是大问题，没人愿意为此事死磕。

另一种则是科技解释：下一代AI大模型（GPT-5及其竞争对手），需要的训练算力可能会升级到“万卡规模”乃至“N万卡规模”。因为在现有基础上进一步提升大模型的能力，必须“大力出奇迹”、从资源规模上想办法，就像当年的核武器从2万吨量级飙升到千万吨乃至1亿吨一样。如果中国公司打算追赶到这一步，那它们对美国云计算资源的需求就会上升一个数量级；换个角度讲，美国本土客户的需求也会上升一个数量级，导致微软、亚马逊手中的高端算力更加供不应求。

因此，美国商务部此时提出对华云计算服务禁令，一方面是提前封死中国公司追赶的道路，另一方面也有助于把宝贵的算力资源留给美国本土公司使用。在市场经济环境下，价高者得，发生什么事情很难说，所以最佳竞争策略是把中国公司排除在市场经济之外。微软、亚马逊肯定也知道自己手里的算力会更加矜贵、不缺客户，所以也没有动力提出反对。

现在轮到第二个问题：对于那些真心想追上世界领先水平（而不是炒高股价、离婚减持）的中国科技公司而言，接下来要去哪里找算力呢？答案取决于它们愿意付出多高的代价，而且不仅是经济代价。哪怕美国商务部正式颁布并严格执行禁令，中国公司要通过注册海外分支机构、寻找海外合作伙伴的方式去变相购买美国云计算服务，应该也是有门路的。问题在于一旦被抓，后果可能很严重——永远不要低估美国监管者下死手的力度。国内互联网大厂多是美国、香港上市公司，它们有没有胆子为了AI大模型冒如此巨大的风险呢？

如果不考虑上述冒险做法，那就只有立足于发掘国内算力资源了。目前AI相关芯片领域所有的“国产替代”都集中在推理端，因为推理所需算力要求不高。在训练端，全世界都存在对英伟达（设计）+台积电（制造）的替代需求，可是全世界都没做到（包括美国自己的科技大厂）。或许再过五年、十年，总归有人能拿出替代方案，但那时的世界又不一样了。上文提到过，目前国内自研AI大模型与GPT的差距还是明显的，而且GPT自身也在迅速迭代，训练算力的需求一时半会是下不来的。

目前国内的几家主流大厂（大家都知道是哪几家），平均每家手头只有1000-2000张用于通用大模型训练的显卡，有的多些、有的少些。有人猜测，某些大厂可能在海外囤积了大批显卡；不过考虑到近年来英伟达显卡一直供不应求，就算“囤积”了，规模也不会太大。即将到来的GPT-5时代，可能是一个“万卡规模”的时代，现有的符合要求的显卡加起来，可能都满足不了哪怕一个自研大模型的训练需求。怎么办？我也很想知道。

附带说一句，在2022年11月ChatGPT横空出世之前，中国科技公司囤积英伟达显卡的最强动力，竟然是为云游戏做准备——当时很多互联网大厂是真心相信云游戏是未来，而且能迅速兑现的。无心插柳柳成荫，云游戏虽然一直没起来，为云游戏准备的显卡却成了中国AI大模型的救命稻草。

真是令人啼笑皆非：过去三年，中国游戏行业遭受了来自四面八方的一轮又一轮的抨击，夹起尾巴做人，在社交媒体上动不动就能看到“游戏算科技吗”“游戏有什么技术含量”的说法。现在，居然是游戏行业要在拯救中国“硬科技”的过程中，发挥举足轻重的作用。

我们所有人都欠游戏行业一个感谢。那些一贯轻视、侮辱、诋毁游戏的人，还欠游戏行业一个道歉。我等待着他们的道歉，我希望能听到他们的道歉。

本文来自微信公众号：互联网怪盗团（ID：TMTphantom），作者：怪盗团团长裴培

声明：该内容为作者独立观点，不代表新零售资讯观点或立场，文章为网友投稿上传，版权归原作者所有，未经允许不得转载。新零售资讯站仅提供信息存储服务，如发现文章、图片等侵权行为，侵权责任由作者本人承担。如对本稿件有异议或投诉，请联系：wuchangxu@youzan.com

Like (0)

巨额补贴“美国建厂”，美国将在三月底宣布芯片拨款

Previous 2024年1月29日

未来五年全球五大趋势

Next 2024年1月29日

水温80度：AI行业真假繁荣的临界点

我们从来没拥有过这么成功的AI主导的产品。

（这种分析统计并不那么准，但大致数量级是差不多的）

这两个产品碰巧可以用来比较有两个原因：

一个是它们在本质上是一种东西，只不过一个更通用，一个更垂直。

蓝海的海峡

未来成功的AI产品是什么样，大致形态已经比较清楚了，从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时“罢工”，全网打工人都慌了

美西时间午夜12点开始，陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载，忽然无法正常工作了。

因为发现AI用久了，导致现在“离了ChatGPT，大脑根本无法运转”。”

等等，又不是只有一个聊天机器人，难道地球离了ChatGPT就不转了。

大模型连崩原因猜想，谷歌躺赢流量激增6成

GPT归位，人们的工作终于又恢复了秩序。

未来科技 2024年6月5日
ChatGPT宕机8小时，谷歌Gemini搜索量激增60%

ChatGPT一天宕机两次

谷歌Gemini搜索量激增近60%

ChatGPT在全球拥有约1.8亿活跃用户，已成为部分人群工作流程的关键部分。

过去24小时内提交的关于OpenAI宕机的问题报告

图片来源：Downdetector

ChatGPT系统崩溃后，有网友在社交媒体X上发帖警告道：“ChatGPT最近发生的2.5小时全球中断，为我们所有依赖AI工具来支持业务的人敲响了警钟。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时大崩溃，AI集体罢工让全网都慌了

接着OpenAI也在官网更新了恢复服务公告，表示“我们经历了一次重大故障，影响了所有ChatGPT用户的所有计划。Generator调查显示，在ChatGPT首次故障后的四小时内，谷歌AI聊天机器人Gemini搜索量激增60%，达到327058次。

而且研究团队表示，“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关，显示出用户把Gemini视为ChatGPT的直接替代选项。

未来科技 2024年6月5日
深度对话苹果iPad团队：玻璃的传承与演变

iPad最为原始的外观专利

没错，这就是iPad最初被设想的样子：全面屏，圆角矩形，纤薄，就像一片掌心里的玻璃。

2010年发布的初代iPad

好在乔布斯的遗志，并未被iPad团队遗忘。

初代iPad宣传片画面

乔布斯赞同这一想法，于是快速将资源投入平板电脑项目，意欲打造一款与众不同的「上网本」，这就是iPad早年的产品定义。

iPad进化的底色

苹果发布会留下过很多「名场面」，初代iPad发布会的末尾就是一例。

未来科技 2024年6月5日
底层逻辑未通，影视业的AI革命正在褪色…

GPT、Sora均为革命性产品，引发了舆论风暴，但它在上个月发布的“多模态语音对谈”Sky语音，却由于声音太像电影明星斯嘉丽·约翰逊，被正主强烈警告，被迫下架。

华尔街日报也在唱衰，认为“AI工具创新步伐正在放缓，实用性有限，运行成本过高”：

首先，互联网上已经没有更多额外的数据供人工智能模型收集、训练。

03、

如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向，那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

但分歧点正在于此，电影公司希望通过使用AI技术来降低成本，但又不希望自己的内容被AI公司所窃取。

未来科技 2024年6月5日
KAN会引起大模型的范式转变吗？

“先变后加”代替“先加后变”的设计，使得KAN的每一个连接都相当于一个“小型网络”，能实现更强的表达能力。

KAN的主要贡献在于，在当前深度学习的背景下重新审视K氏表示定理，将上述创新网络泛化到任意宽度和深度，并以科学发现为目标进行了一系列实验，展示了其作为“AI+科学”基础模型的潜在作用。

KAN与MLP的对照表：

KAN使神经元之间的非线性转变更加细粒度和多样化。

未来科技 2024年6月5日
这个国家，也开始发芯片补贴了

//mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
[4]中国安防协会：欧盟批准430亿欧元芯片补贴计划：2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
[6]潮电穿戴：印度半导体投资大跃进，一锤砸下1090亿，政府补贴一半.2024.3.5https。

未来科技 2024年6月5日
大模型的电力经济学：中国AI需要多少电力？

这些报告研究对象（数字中心、智能数据中心、加密货币等）、研究市场（全球、中国与美国等）、研究周期（多数截至2030年）各不相同，但基本逻辑大同小异：先根据芯片等硬件的算力与功率，计算出数据中心的用电量，再根据算力增长的预期、芯片能效提升的预期，以及数据中心能效（PUE）提升的预期，来推测未来一段时间内智能数据中心的用电量增长情况。

未来科技 2024年6月5日
你正和20万人一起接受AI面试

原本客户还担心候选人能否接受AI面试这件事，但在2020年以后，候选人进行AI面试的过程已经是完全自动化的，包括面试过程中AI面试官回答候选人的问题，AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

以近屿智能与客户合作的校验周期至少3年来看，方小雷认为AI应用不太可能一下子爆发，包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

未来科技 2024年6月4日

禁止云计算厂商为中国训练AI大模型，美国图啥？

相关推荐