中国大模型产业的五个真问题

2024年2月18日 22:24 • 未来科技

2023年下半年，陆续有部分大模型被指出是“套壳”，直接套用了国外的开源大模型，在一些检验大模型能力的榜单上排名靠前，不少指标都接近GPT4。

2023年，中国不少投资人会直接告诉大模型创业者，先招一些名校背景的人，抓紧开发布会，发布大模型产品，然后做下一轮融资，不要去买算力。

2024年，AI大模型的发展会有几个相对确定的趋势：一是融资热度下滑，2023年出现的一家公司完成多轮数亿美元融资的情况会明显减少，大模型创业公司需要寻找新的出路。

2023年科技领域最热的话题就是AI大模型。这股热潮由美国创业公司OpenAI引领，ChatGPT发布后几个月，中国公司密集发布自己的大模型，整个2023年，中国公司发布的大模型数量已经超过130个。

OpenAI能够实现技术突破，和许多科技创新领域公司的特点类似。有足够优秀的人才，海量资金支持，多年持续投入，以及对目标坚定。在ChatGPT发布之前的很长一段时间里，产业界和投资界大多不看好OpenAI，但并未动摇该公司的方向。2023年，几乎所有人都认可了大模型的方向，大家认为，OpenAI已经把结果摆出来了，其他公司要做的就是尽快跟进，不断优化，确保能参与未来。

一些人把过去没有大规模投入大模型的原因归咎于不确定结果。现在已经确定了，算力、数据、人才都可以加大投入，中国公司擅长工程优化，做出能实际应用的大模型产品指日可待。

但事实真的如此吗？对于OpenAI来说，大模型从来都是确定的方向，OpenAI的大部分资金都花在了算力上，当时英伟达的A100（AI专用芯片）价格比今天低很多。据第三方数据机构SemiAnalysis估计，OpenAI使用了约3617台HGX A100服务器，包含近3万块英伟达GPU。光有GPU还不够，投资方微软帮助OpenAI搭建了大模型定制化的算力集群，能够进一步提升这些GPU的效率。

在数据方面，OpenAI从数据收集、数据标注、数据清洗、数据整理、数据优化等每个环节都有持续投入。OpenAI团队中大部分人，都来自顶尖的科研机构或科技巨头。

也就是说，在这种实力和投入力度下，OpenAI依然用了超过八年的时间，才打造出突破性产品GPT4，且存在“幻觉”（也就是答非所问、胡说八道等情况）。

为什么中国公司在几个月的时间里，就能做出号称匹敌GPT4的大模型？这是谁的幻觉？

2023年下半年，陆续有部分大模型被指出是“套壳”，直接套用了国外的开源大模型，在一些检验大模型能力的榜单上排名靠前，不少指标都接近GPT4。多位业内人士告诉《财经》记者，榜单表现越好，套壳比例越高，略有调整表现就会变差。

“套壳”只是中国大模型产业现状的冰山一角，这背后折射出产业发展的五个问题，它们之间互为因果，每个问题都无法独立解决。到今天，大模型的大众热度已经明显下滑，2024年，中国大模型产业的问题会进一步暴露。但在热闹、问题之下，大模型已经在产业中发挥价值。

模型：原创、拼装还是套壳？

2023年11月，阿里巴巴前技术副总裁、AI科学家贾扬清发文称，某国内大厂做的大模型用的是Meta的开源模型LLaMA，只是修改了几个变量名。贾扬清表示，因为改名导致他们需要做很多工作来适配。

此前，就有国外开发者称，李开复创办的“零一万物”使用的就是LLaMA，只是重命名了两个张量，因此，业内质疑零一万物就是“套壳”。随后，李开复和零一万物均有回应，称在训练过程中沿用了开源架构，出发点是充分测试模型，执行对比实验，这样能快速起步，但其发布的Yi-34B和Yi-6B模型都是从0开始训练，并做了大量原创性优化和突破工作。

2023年12月，媒体报道称，字节跳动秘密研发的大模型项目中，调用了OpenAI的API（应用程序接口），并使用ChatGPT输出的数据进行模型训练。而这是OpenAI的使用协议中明确禁止的行为。

随后，OpenAI暂停了字节的账号，表示会进一步调查，如果属实将要求更改或终止账户。

字节对此的回应是，2023年初，技术团队在大模型探索初期，有部分工程师将GPT的API服务应用于较小模型的实验性项目研究中。该模型仅为测试，没有计划上线，也从未对外使用。在2023年4月公司引入GPT API调用规范检查后，这种做法已经停止。且字节大模型团队已经提出了明确的内部要求，不得将GPT模型生成的数据添加到字节大模型的训练数据集，并培训工程师团队在使用GPT时遵守服务条款。

目前国产大模型中，主要分为三类：一是原创大模型；二是套壳国外的开源大模型；三是拼装大模型，也就是把过去的小模型们拼在一起，变成参数量看起来很大的“大模型”。

其中，原创大模型数量最少，做原创大模型需要有很强的技术积累，且要有持续的高投入，风险很大，因为一旦模型没有足够强的竞争力，这些大规模投入就打了水漂。大模型的价值需要商业化来证明，当市场上已经出现足够好的基础大模型，其他公司应该去挖掘新的价值点，比如大模型在不同领域的应用，或是中间层，比如帮大模型训练、数据处理、算力服务等。

但现状是，大部分参与者都在“卷”所谓的“原创大模型”，又担心风险太高，于是有了大量套壳、拼装的大模型。无论是直接使用开源模型或是拼装模型，只要符合相关规范，都没有问题。到商业化落地阶段，客户也不太会在意是否原创，有用就行，甚至不少客户会因为成本更低，更愿意选择非原创的技术。

问题在于，即使是拼装和套壳，大家也要不断强调“原创”，为了证明“原创”，就需要调整修改，而这又会影响大模型的迭代能力，陷入内耗。

算力：卡脖子还是不想买？

大模型的基础之一是海量算力，且是先进算力，因此大模型也被称为暴力美学。英伟达的A100此前被认为是最适合训练大模型的，近期英伟达又推出了更先进的算力芯片H100，但还未在中国市场开售。

一位英伟达的长期合作伙伴告诉《财经》记者，2023年，A100的售价涨了约1倍，据他了解，2023年密集购买A100的中国公司主要是自身有业务需求的大厂，包括阿里巴巴、腾讯、字节跳动、百度等，创业公司很少。有一些知名大模型创业公司会主动要求和他建立战略合作关系，以此来对外证明自己在投入算力，“不给钱的那种”。

尽管有美国政府的“出口管制规则”，中国公司想要获得英伟达的算力，并非不可能，目前有很多方式可以选择。除了直接购买，还可以通过英伟达在中国的合作伙伴们购买。GPU本身很贵，买来之后的部署、运营、调试、使用，都是成本。此前业内流传的一句话是，中国不少科研机构连A100的电费都付不起。

由八张A100组成的DGX服务器最大功率是6.5kW，也就是运行一小时需要6.5度电，同时要搭配大约同等电量的散热设备。按照平均工业用电每度0.63元计算，一台服务器开一天（24小时）的电费约200元。如果是1000台服务器，一天的电费就是约20万元。

因此，除了大厂，创业公司很难大规模购买、部署GPU。

GPU资源还可以租用，在阿里云、腾讯云或是亚马逊AWS等云服务平台上，都可以直接租用A100算力服务。租金同样在过去一年涨了不少。

但实际情况是，不少大模型公司并不想在算力上做大规模投入。多位关注AI的投资人告诉《财经》记者，一旦创业公司开始部署算力，会出现两个“问题”，一是这个投入没有上限，没有终点，谁也不知道要烧到什么程度。OpenAI到今天还会因为算力跟不上而出现宕机。二是公司会因此变成重资产公司，这对于公司未来的估值有不利影响，会直接影响到投资人的收益。

2023年，中国不少投资人会直接告诉大模型创业者，先招一些名校背景的人，抓紧开发布会，发布大模型产品，然后做下一轮融资，不要去买算力。

创业公司们在风口期拿到大量融资，高薪招人，高调发布产品，推高估值。一旦风口过去，继续融资或是上市就需要收入，到时候再通过此前融到的钱，去低价甚至亏本竞标项目，或是直接对外投资来并表收入。

这就有可能陷入一个恶性循环：不愿意承担算力高投入的风险，就很难在大模型领域有突破性发展，也就难以和那些真正在这个方向上大规模投入的巨头们竞争。

数据：低质数据怎么解决？

数据和算力都是大模型的基础，在数据方面，中国大模型产业面临和算力同样的问题：是否值得大规模投入？

在中国，一般的数据获取门槛很低，过去主要是用爬虫工具来收集数据，现在可以直接用开源的数据集。中国大模型以中文数据为主，业内普遍认为中文互联网数据的质量较低。

一位AI公司创始人形容，当他需要在互联网上搜索专业信息时，他会用谷歌搜索，或是上YouTube。国内的网站或App上，并非缺少专业信息，而是广告内容太多，找到专业内容需要的时间更久。

OpenAI用于训练大模型的中文数据同样来源于中国互联网平台，但它额外做了很多工作来提升数据质量，这不是普通的数据标注工作能完成的，需要专业团队对数据进行清洗、整理。

此前就有AI创业者表示，在中国很难找到相对标准化的数据服务商，大多是定制化服务，定制服务又很贵。

这和是否要大规模投资算力的逻辑有些类似，这笔投入对于很多公司，尤其是创业公司来说，看起来并不划算。如果大规模投入，一旦最后的模型效果不理想，同样是“打水漂”，还不如用开源数据训练，直接开发布会。

此外，中国市场缺乏有效的数据保护手段，一位大厂AI负责人说，“在中国，你能拿到的数据，别人也能拿到”，“如果你花很多钱去做高质量数据，别人可以用很低的成本拿到，反过来也一样。”

包括数据处理在内的大模型中间环节，在2024年会是一个相对明确的新发展方向。无论是哪种模型，在落地到具体应用场景中时，必须要用专业数据做优化调试，这对于数据处理的要求更高，此外还需要有模型调试、工程优化等环节参与。

但如果其中的环节又变成了投资人眼里的“新风口”，那又是另一个故事了。

资本：只有资本短视吗？

以上的三个问题，背后都指向一个共同的方向：资本短视。

尽管OpenAI已经蹚出一条明确的道路，对于绝大部分公司来说，想从零开始做出成熟的大模型，需要耗费的成本和时间并不会短很多。

对于大部分投资人来说，每笔投资的目的很明确：退出、赚钱。OpenAI火了，估值一路攀升，未来还会继续增长。2023年4月，该公司估值约280亿美元，到2023年12月，据美国媒体报道，OpenAI最新一轮估值或将超过1000亿美元。这在投资人眼里是一个非常确定的信号，如果以合适的价格投资中国大模型创业公司，也能在很短时间内做到估值成倍增长。

中国投资人的耐心只有三五年，这是资本运作模式决定的。投资人从LP手里募资，需要在一定年限内退出并拿到可观的收益。投资人退出的渠道包括项目并购、上市，或是在后续融资中把自己手里的股份卖给新投资方。

早期融资可以靠风口和讲故事，但走到中后期甚至上市，就必须有一定规模的商业化能力。投资人们发现，拖得越久，项目上市或被并购的难度就越高，因为AI领域主要的商业模式是做B端的定制化项目，这条路径就决定了创业公司很难做出高增长的收入。投资人只能趁风口还在，迅速推动公司完成多轮融资，抬高估值，之后哪怕打折出售手里的股份，也是划算的。

这也是为什么2023年大模型相关的发布会层出不穷，各种大模型榜单百花齐放且排名各不相同，这些都是有助于融资的“故事”。类似的路径在几年前的AI产业已经出现过一次，那个阶段的代表公司是AI四小龙。2023年的大模型创业只是把过去三年走完的路在一年时间里加速完成。

但短视绝不是投资人单方面的问题。在今天的商业环境下，大部分人都追求短期的、确定性的结果，十年，甚至五年后的未来都似乎难以把握。

商业化：谁是合适的买单人

2023年，中国大模型产业迅速从比拼大模型参数进入到比拼商业化的阶段。2024年1月的CES（消费电子展）上，两位著名的AI科学家李飞飞和吴恩达均表示，接下来AI商业化会有明显发展，会深入到更多行业。

目前看来，大模型的主要应用方向有两个：一是通过大模型技术为C端用户提供新的工具，比如付费版GPT4、百度用文心大模型重构的百度文库、新的AI视频剪辑工具、文生图工具等。但C端付费短期内很难有大规模增长，对于大模型工具有刚需的人群相对较少。

更有希望的商业化方向是B端服务。在中国市场，做B端软件服务一直是一个“老大难”的生意。多位投资人和业内人士都提到，中国市场最大的B端客户是政府和国企，大模型作为先进的生产力工具，会有一个直接影响是减少人力。而在政府和国企，减少人力在很多时候反而会变成阻力。

如果退而求其次，选择中小B客户，在2024年恐怕也很难。一位AI大模型创业者说，他近期询问了不少企业客户，得到的回应是：“大模型能做什么？能帮我裁员还是能帮我赚钱？”

到今天，即使是最先进的大模型也依然存在“幻觉”问题，这在C端应用上还可以忍受，但在一些专业的B端场景中，有“幻觉”就意味着难以真正落地。过去比对式AI，例如人脸识别，如果识别错误，人工辅助、调整的成本很低，但大模型擅长“一本正经地胡说八道”，具有一定迷惑性。

但大模型已经切实在实际应用了。多位业内人士都提到，因为大模型的出现，很多过去无法解决的问题都有了新方法可以解决，且效率有明显提升。例如前文提到的拼接大模型，在过去很少有人尝试，现在不少AI公司都开始把多个不同场景的小模型拼在一起，在解决大部分同类问题时，不需要再单独训练模型，可以直接调取使用。

此外，在一些有庞大业务的公司里，大模型也已经落地使用。类似于上一轮AI视觉技术带动AI算法的发展，这些AI算法迅速在内容推荐、电商、打车、外卖等领域发挥重要价值。现在，腾讯的游戏业务、阿里的电商业务、字节的内容业务等，都已经用上了大模型。

2024年，AI大模型的发展会有几个相对确定的趋势：一是融资热度下滑，2023年出现的一家公司完成多轮数亿美元融资的情况会明显减少，大模型创业公司需要寻找新的出路。目前看来，大厂们更有实力做大模型基础设施的工作，创业公司可以考虑调整方向，填补基础大模型到应用之间的空白。

二是大模型的应用会持续深入，但这主要会集中在数字化程度很高且业务体量非常大的领域。在C端，大模型也会进一步普及，不过对于中国公司来说，不能只依赖C端用户付费，C端应用场景中会加入其他变现模式，主要是广告。

三是国产算力会进一步得到重视，得到重视并不意味着短期内会有明显进步，这是一个漫长的过程。国产算力能力提升的同时，会有更多趁机炒作、造势、圈钱的现象。

风口会刺激产业迅速扩张，泡沫随之而生，机会越大，泡沫就越大。只有撇开泡沫，才能看清产业发展的新机会。

本文来自微信公众号：财经十一人（ID：caijingEleven），作者：刘以秦，编辑：谢丽容

声明：该内容为作者独立观点，不代表新零售资讯观点或立场，文章为网友投稿上传，版权归原作者所有，未经允许不得转载。新零售资讯站仅提供信息存储服务，如发现文章、图片等侵权行为，侵权责任由作者本人承担。如对本稿件有异议或投诉，请联系：wuchangxu@youzan.com

Like (0)

航运日益繁忙，安全如何保障？

Previous 2024年2月18日

深度科技公司如何筹集资金？

Next 2024年2月19日

水温80度：AI行业真假繁荣的临界点

我们从来没拥有过这么成功的AI主导的产品。

（这种分析统计并不那么准，但大致数量级是差不多的）

这两个产品碰巧可以用来比较有两个原因：

一个是它们在本质上是一种东西，只不过一个更通用，一个更垂直。

蓝海的海峡

未来成功的AI产品是什么样，大致形态已经比较清楚了，从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时“罢工”，全网打工人都慌了

美西时间午夜12点开始，陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载，忽然无法正常工作了。

因为发现AI用久了，导致现在“离了ChatGPT，大脑根本无法运转”。”

等等，又不是只有一个聊天机器人，难道地球离了ChatGPT就不转了。

大模型连崩原因猜想，谷歌躺赢流量激增6成

GPT归位，人们的工作终于又恢复了秩序。

未来科技 2024年6月5日
ChatGPT宕机8小时，谷歌Gemini搜索量激增60%

ChatGPT一天宕机两次

谷歌Gemini搜索量激增近60%

ChatGPT在全球拥有约1.8亿活跃用户，已成为部分人群工作流程的关键部分。

过去24小时内提交的关于OpenAI宕机的问题报告

图片来源：Downdetector

ChatGPT系统崩溃后，有网友在社交媒体X上发帖警告道：“ChatGPT最近发生的2.5小时全球中断，为我们所有依赖AI工具来支持业务的人敲响了警钟。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时大崩溃，AI集体罢工让全网都慌了

接着OpenAI也在官网更新了恢复服务公告，表示“我们经历了一次重大故障，影响了所有ChatGPT用户的所有计划。Generator调查显示，在ChatGPT首次故障后的四小时内，谷歌AI聊天机器人Gemini搜索量激增60%，达到327058次。

而且研究团队表示，“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关，显示出用户把Gemini视为ChatGPT的直接替代选项。

未来科技 2024年6月5日
深度对话苹果iPad团队：玻璃的传承与演变

iPad最为原始的外观专利

没错，这就是iPad最初被设想的样子：全面屏，圆角矩形，纤薄，就像一片掌心里的玻璃。

2010年发布的初代iPad

好在乔布斯的遗志，并未被iPad团队遗忘。

初代iPad宣传片画面

乔布斯赞同这一想法，于是快速将资源投入平板电脑项目，意欲打造一款与众不同的「上网本」，这就是iPad早年的产品定义。

iPad进化的底色

苹果发布会留下过很多「名场面」，初代iPad发布会的末尾就是一例。

未来科技 2024年6月5日
底层逻辑未通，影视业的AI革命正在褪色…

GPT、Sora均为革命性产品，引发了舆论风暴，但它在上个月发布的“多模态语音对谈”Sky语音，却由于声音太像电影明星斯嘉丽·约翰逊，被正主强烈警告，被迫下架。

华尔街日报也在唱衰，认为“AI工具创新步伐正在放缓，实用性有限，运行成本过高”：

首先，互联网上已经没有更多额外的数据供人工智能模型收集、训练。

03、

如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向，那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

但分歧点正在于此，电影公司希望通过使用AI技术来降低成本，但又不希望自己的内容被AI公司所窃取。

未来科技 2024年6月5日
KAN会引起大模型的范式转变吗？

“先变后加”代替“先加后变”的设计，使得KAN的每一个连接都相当于一个“小型网络”，能实现更强的表达能力。

KAN的主要贡献在于，在当前深度学习的背景下重新审视K氏表示定理，将上述创新网络泛化到任意宽度和深度，并以科学发现为目标进行了一系列实验，展示了其作为“AI+科学”基础模型的潜在作用。

KAN与MLP的对照表：

KAN使神经元之间的非线性转变更加细粒度和多样化。

未来科技 2024年6月5日
这个国家，也开始发芯片补贴了

//mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
[4]中国安防协会：欧盟批准430亿欧元芯片补贴计划：2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
[6]潮电穿戴：印度半导体投资大跃进，一锤砸下1090亿，政府补贴一半.2024.3.5https。

未来科技 2024年6月5日
大模型的电力经济学：中国AI需要多少电力？

这些报告研究对象（数字中心、智能数据中心、加密货币等）、研究市场（全球、中国与美国等）、研究周期（多数截至2030年）各不相同，但基本逻辑大同小异：先根据芯片等硬件的算力与功率，计算出数据中心的用电量，再根据算力增长的预期、芯片能效提升的预期，以及数据中心能效（PUE）提升的预期，来推测未来一段时间内智能数据中心的用电量增长情况。

未来科技 2024年6月5日
你正和20万人一起接受AI面试

原本客户还担心候选人能否接受AI面试这件事，但在2020年以后，候选人进行AI面试的过程已经是完全自动化的，包括面试过程中AI面试官回答候选人的问题，AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

以近屿智能与客户合作的校验周期至少3年来看，方小雷认为AI应用不太可能一下子爆发，包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

未来科技 2024年6月4日

中国大模型产业的五个真问题

相关推荐