中国大模型产业的五个真问题

2023年下半年,陆续有部分大模型被指出是“套壳”,直接套用了国外的开源大模型,在一些检验大模型能力的榜单上排名靠前,不少指标都接近GPT4。

2023年,中国不少投资人会直接告诉大模型创业者,先招一些名校背景的人,抓紧开发布会,发布大模型产品,然后做下一轮融资,不要去买算力。

2024年,AI大模型的发展会有几个相对确定的趋势:一是融资热度下滑,2023年出现的一家公司完成多轮数亿美元融资的情况会明显减少,大模型创业公司需要寻找新的出路。

2023年科技领域最热的话题就是AI大模型。这股热潮由美国创业公司OpenAI引领,ChatGPT发布后几个月,中国公司密集发布自己的大模型,整个2023年,中国公司发布的大模型数量已经超过130个。

OpenAI能够实现技术突破,和许多科技创新领域公司的特点类似。有足够优秀的人才,海量资金支持,多年持续投入,以及对目标坚定。在ChatGPT发布之前的很长一段时间里,产业界和投资界大多不看好OpenAI,但并未动摇该公司的方向。2023年,几乎所有人都认可了大模型的方向,大家认为,OpenAI已经把结果摆出来了,其他公司要做的就是尽快跟进,不断优化,确保能参与未来。

一些人把过去没有大规模投入大模型的原因归咎于不确定结果。现在已经确定了,算力、数据、人才都可以加大投入,中国公司擅长工程优化,做出能实际应用的大模型产品指日可待。

但事实真的如此吗?对于OpenAI来说,大模型从来都是确定的方向,OpenAI的大部分资金都花在了算力上,当时英伟达的A100(AI专用芯片)价格比今天低很多。据第三方数据机构SemiAnalysis估计,OpenAI使用了约3617台HGX A100服务器,包含近3万块英伟达GPU。光有GPU还不够,投资方微软帮助OpenAI搭建了大模型定制化的算力集群,能够进一步提升这些GPU的效率。

在数据方面,OpenAI从数据收集、数据标注、数据清洗、数据整理、数据优化等每个环节都有持续投入。OpenAI团队中大部分人,都来自顶尖的科研机构或科技巨头。   

也就是说,在这种实力和投入力度下,OpenAI依然用了超过八年的时间,才打造出突破性产品GPT4,且存在“幻觉”(也就是答非所问、胡说八道等情况)

为什么中国公司在几个月的时间里,就能做出号称匹敌GPT4的大模型?这是谁的幻觉?

2023年下半年,陆续有部分大模型被指出是“套壳”,直接套用了国外的开源大模型,在一些检验大模型能力的榜单上排名靠前,不少指标都接近GPT4。多位业内人士告诉《财经》记者,榜单表现越好,套壳比例越高,略有调整表现就会变差。

“套壳”只是中国大模型产业现状的冰山一角,这背后折射出产业发展的五个问题,它们之间互为因果,每个问题都无法独立解决。到今天,大模型的大众热度已经明显下滑,2024年,中国大模型产业的问题会进一步暴露。但在热闹、问题之下,大模型已经在产业中发挥价值。

模型:原创、拼装还是套壳?

2023年11月,阿里巴巴前技术副总裁、AI科学家贾扬清发文称,某国内大厂做的大模型用的是Meta的开源模型LLaMA,只是修改了几个变量名。贾扬清表示,因为改名导致他们需要做很多工作来适配。

此前,就有国外开发者称,李开复创办的“零一万物”使用的就是LLaMA,只是重命名了两个张量,因此,业内质疑零一万物就是“套壳”。随后,李开复和零一万物均有回应,称在训练过程中沿用了开源架构,出发点是充分测试模型,执行对比实验,这样能快速起步,但其发布的Yi-34B和Yi-6B模型都是从0开始训练,并做了大量原创性优化和突破工作。

2023年12月,媒体报道称,字节跳动秘密研发的大模型项目中,调用了OpenAI的API(应用程序接口),并使用ChatGPT输出的数据进行模型训练。而这是OpenAI的使用协议中明确禁止的行为。

随后,OpenAI暂停了字节的账号,表示会进一步调查,如果属实将要求更改或终止账户。

字节对此的回应是,2023年初,技术团队在大模型探索初期,有部分工程师将GPT的API服务应用于较小模型的实验性项目研究中。该模型仅为测试,没有计划上线,也从未对外使用。在2023年4月公司引入GPT API调用规范检查后,这种做法已经停止。且字节大模型团队已经提出了明确的内部要求,不得将GPT模型生成的数据添加到字节大模型的训练数据集,并培训工程师团队在使用GPT时遵守服务条款。

目前国产大模型中,主要分为三类:一是原创大模型;二是套壳国外的开源大模型;三是拼装大模型,也就是把过去的小模型们拼在一起,变成参数量看起来很大的“大模型”。

其中,原创大模型数量最少,做原创大模型需要有很强的技术积累,且要有持续的高投入,风险很大,因为一旦模型没有足够强的竞争力,这些大规模投入就打了水漂。大模型的价值需要商业化来证明,当市场上已经出现足够好的基础大模型,其他公司应该去挖掘新的价值点,比如大模型在不同领域的应用,或是中间层,比如帮大模型训练、数据处理、算力服务等。

但现状是,大部分参与者都在“卷”所谓的“原创大模型”,又担心风险太高,于是有了大量套壳、拼装的大模型。无论是直接使用开源模型或是拼装模型,只要符合相关规范,都没有问题。到商业化落地阶段,客户也不太会在意是否原创,有用就行,甚至不少客户会因为成本更低,更愿意选择非原创的技术。

问题在于,即使是拼装和套壳,大家也要不断强调“原创”,为了证明“原创”,就需要调整修改,而这又会影响大模型的迭代能力,陷入内耗。

算力:卡脖子还是不想买?

大模型的基础之一是海量算力,且是先进算力,因此大模型也被称为暴力美学。英伟达的A100此前被认为是最适合训练大模型的,近期英伟达又推出了更先进的算力芯片H100,但还未在中国市场开售。

一位英伟达的长期合作伙伴告诉《财经》记者,2023年,A100的售价涨了约1倍,据他了解,2023年密集购买A100的中国公司主要是自身有业务需求的大厂,包括阿里巴巴、腾讯、字节跳动、百度等,创业公司很少。有一些知名大模型创业公司会主动要求和他建立战略合作关系,以此来对外证明自己在投入算力,“不给钱的那种”。

尽管有美国政府的“出口管制规则”,中国公司想要获得英伟达的算力,并非不可能,目前有很多方式可以选择。除了直接购买,还可以通过英伟达在中国的合作伙伴们购买。GPU本身很贵,买来之后的部署、运营、调试、使用,都是成本。此前业内流传的一句话是,中国不少科研机构连A100的电费都付不起。

由八张A100组成的DGX服务器最大功率是6.5kW,也就是运行一小时需要6.5度电,同时要搭配大约同等电量的散热设备。按照平均工业用电每度0.63元计算,一台服务器开一天(24小时)的电费约200元。如果是1000台服务器,一天的电费就是约20万元。

因此,除了大厂,创业公司很难大规模购买、部署GPU。

GPU资源还可以租用,在阿里云、腾讯云或是亚马逊AWS等云服务平台上,都可以直接租用A100算力服务。租金同样在过去一年涨了不少。

但实际情况是,不少大模型公司并不想在算力上做大规模投入。多位关注AI的投资人告诉《财经》记者,一旦创业公司开始部署算力,会出现两个“问题”,一是这个投入没有上限,没有终点,谁也不知道要烧到什么程度。OpenAI到今天还会因为算力跟不上而出现宕机。二是公司会因此变成重资产公司,这对于公司未来的估值有不利影响,会直接影响到投资人的收益。

2023年,中国不少投资人会直接告诉大模型创业者,先招一些名校背景的人,抓紧开发布会,发布大模型产品,然后做下一轮融资,不要去买算力。

创业公司们在风口期拿到大量融资,高薪招人,高调发布产品,推高估值。一旦风口过去,继续融资或是上市就需要收入,到时候再通过此前融到的钱,去低价甚至亏本竞标项目,或是直接对外投资来并表收入。

这就有可能陷入一个恶性循环:不愿意承担算力高投入的风险,就很难在大模型领域有突破性发展,也就难以和那些真正在这个方向上大规模投入的巨头们竞争。

数据:低质数据怎么解决?

数据和算力都是大模型的基础,在数据方面,中国大模型产业面临和算力同样的问题:是否值得大规模投入?

在中国,一般的数据获取门槛很低,过去主要是用爬虫工具来收集数据,现在可以直接用开源的数据集。中国大模型以中文数据为主,业内普遍认为中文互联网数据的质量较低。

一位AI公司创始人形容,当他需要在互联网上搜索专业信息时,他会用谷歌搜索,或是上YouTube。国内的网站或App上,并非缺少专业信息,而是广告内容太多,找到专业内容需要的时间更久。

OpenAI用于训练大模型的中文数据同样来源于中国互联网平台,但它额外做了很多工作来提升数据质量,这不是普通的数据标注工作能完成的,需要专业团队对数据进行清洗、整理。

此前就有AI创业者表示,在中国很难找到相对标准化的数据服务商,大多是定制化服务,定制服务又很贵。

这和是否要大规模投资算力的逻辑有些类似,这笔投入对于很多公司,尤其是创业公司来说,看起来并不划算。如果大规模投入,一旦最后的模型效果不理想,同样是“打水漂”,还不如用开源数据训练,直接开发布会。

此外,中国市场缺乏有效的数据保护手段,一位大厂AI负责人说,“在中国,你能拿到的数据,别人也能拿到”,“如果你花很多钱去做高质量数据,别人可以用很低的成本拿到,反过来也一样。”

包括数据处理在内的大模型中间环节,在2024年会是一个相对明确的新发展方向。无论是哪种模型,在落地到具体应用场景中时,必须要用专业数据做优化调试,这对于数据处理的要求更高,此外还需要有模型调试、工程优化等环节参与。

但如果其中的环节又变成了投资人眼里的“新风口”,那又是另一个故事了。

资本:只有资本短视吗?

以上的三个问题,背后都指向一个共同的方向:资本短视。

尽管OpenAI已经蹚出一条明确的道路,对于绝大部分公司来说,想从零开始做出成熟的大模型,需要耗费的成本和时间并不会短很多。

对于大部分投资人来说,每笔投资的目的很明确:退出、赚钱。OpenAI火了,估值一路攀升,未来还会继续增长。2023年4月,该公司估值约280亿美元,到2023年12月,据美国媒体报道,OpenAI最新一轮估值或将超过1000亿美元。这在投资人眼里是一个非常确定的信号,如果以合适的价格投资中国大模型创业公司,也能在很短时间内做到估值成倍增长。

中国投资人的耐心只有三五年,这是资本运作模式决定的。投资人从LP手里募资,需要在一定年限内退出并拿到可观的收益。投资人退出的渠道包括项目并购、上市,或是在后续融资中把自己手里的股份卖给新投资方。

早期融资可以靠风口和讲故事,但走到中后期甚至上市,就必须有一定规模的商业化能力。投资人们发现,拖得越久,项目上市或被并购的难度就越高,因为AI领域主要的商业模式是做B端的定制化项目,这条路径就决定了创业公司很难做出高增长的收入。投资人只能趁风口还在,迅速推动公司完成多轮融资,抬高估值,之后哪怕打折出售手里的股份,也是划算的。

这也是为什么2023年大模型相关的发布会层出不穷,各种大模型榜单百花齐放且排名各不相同,这些都是有助于融资的“故事”。类似的路径在几年前的AI产业已经出现过一次,那个阶段的代表公司是AI四小龙。2023年的大模型创业只是把过去三年走完的路在一年时间里加速完成。

但短视绝不是投资人单方面的问题。在今天的商业环境下,大部分人都追求短期的、确定性的结果,十年,甚至五年后的未来都似乎难以把握。

商业化:谁是合适的买单人

2023年,中国大模型产业迅速从比拼大模型参数进入到比拼商业化的阶段。2024年1月的CES(消费电子展)上,两位著名的AI科学家李飞飞和吴恩达均表示,接下来AI商业化会有明显发展,会深入到更多行业。

目前看来,大模型的主要应用方向有两个:一是通过大模型技术为C端用户提供新的工具,比如付费版GPT4、百度用文心大模型重构的百度文库、新的AI视频剪辑工具、文生图工具等。但C端付费短期内很难有大规模增长,对于大模型工具有刚需的人群相对较少。

更有希望的商业化方向是B端服务。在中国市场,做B端软件服务一直是一个“老大难”的生意。多位投资人和业内人士都提到,中国市场最大的B端客户是政府和国企,大模型作为先进的生产力工具,会有一个直接影响是减少人力。而在政府和国企,减少人力在很多时候反而会变成阻力。

如果退而求其次,选择中小B客户,在2024年恐怕也很难。一位AI大模型创业者说,他近期询问了不少企业客户,得到的回应是:“大模型能做什么?能帮我裁员还是能帮我赚钱?”

到今天,即使是最先进的大模型也依然存在“幻觉”问题,这在C端应用上还可以忍受,但在一些专业的B端场景中,有“幻觉”就意味着难以真正落地。过去比对式AI,例如人脸识别,如果识别错误,人工辅助、调整的成本很低,但大模型擅长“一本正经地胡说八道”,具有一定迷惑性。

但大模型已经切实在实际应用了。多位业内人士都提到,因为大模型的出现,很多过去无法解决的问题都有了新方法可以解决,且效率有明显提升。例如前文提到的拼接大模型,在过去很少有人尝试,现在不少AI公司都开始把多个不同场景的小模型拼在一起,在解决大部分同类问题时,不需要再单独训练模型,可以直接调取使用。

此外,在一些有庞大业务的公司里,大模型也已经落地使用。类似于上一轮AI视觉技术带动AI算法的发展,这些AI算法迅速在内容推荐、电商、打车、外卖等领域发挥重要价值。现在,腾讯的游戏业务、阿里的电商业务、字节的内容业务等,都已经用上了大模型。

2024年,AI大模型的发展会有几个相对确定的趋势:一是融资热度下滑,2023年出现的一家公司完成多轮数亿美元融资的情况会明显减少,大模型创业公司需要寻找新的出路。目前看来,大厂们更有实力做大模型基础设施的工作,创业公司可以考虑调整方向,填补基础大模型到应用之间的空白。

二是大模型的应用会持续深入,但这主要会集中在数字化程度很高且业务体量非常大的领域。在C端,大模型也会进一步普及,不过对于中国公司来说,不能只依赖C端用户付费,C端应用场景中会加入其他变现模式,主要是广告。

三是国产算力会进一步得到重视,得到重视并不意味着短期内会有明显进步,这是一个漫长的过程。国产算力能力提升的同时,会有更多趁机炒作、造势、圈钱的现象。

风口会刺激产业迅速扩张,泡沫随之而生,机会越大,泡沫就越大。只有撇开泡沫,才能看清产业发展的新机会。

本文来自微信公众号:财经十一人 (ID:caijingEleven),作者:刘以秦,编辑:谢丽容

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
(0)
上一篇 2024年2月18日
下一篇 2024年2月19日

相关推荐

  • 数字人出海背后,隐藏哪些商业机密?

    某上市公司旗下数字人营销视频创作工具负责人Dour介绍,曾有几个客户向其反馈了极为惊人的数据:使用数字人,一个季度可以完成高达1700~2000小时的直播时长,相当于平均每天直播17个小时。

    在亿邦的调研中,一个常被各种数字人服务商所提及的宏伟设想,或许可以更加具象地展现这门方兴未艾的技术究竟有着多大的想象空间:

    数字人的远期定位,并不是抢“真人”的饭碗,而是在算力爆炸、AI永续迭代的背景下,重构整个电商领域的信息呈现方式。

    未来科技 6小时前
  • 迪士尼想用 AI 改造娱乐业,但它准备好了吗?

     
    乐园:迪士尼的技术试验场
     
    迪士尼乐园不仅是“世界上最快乐的地方”,也是迪士尼前沿技术的实验场。
     
    马克·谢弗曾在人民快运航空和大陆航空从事收入管理工作,他来到迪士尼后,领导一个由 250名员工组成的数据分析团队,对迪士尼乐园的各项业务进行动态定价,并推出了。
     
    2022年,迪士尼推出了人工智能工具。
     
    迪士尼的人工智能困境
     
    1928年,迪士尼推出了世界上首部声画同步动画片《汽船威利》。

    未来科技 6小时前
  • 这个世界变得更精彩,但好像也更无聊了

    那是一个下午,办公室的咖啡机坏了,我在楼下买了一杯厚乳拿铁,上楼后发现同事都出去吃午饭了,我一个人坐在窗边的工位上,升起的阳光正好覆盖在了我的电脑屏幕上,浏览器的文字都变得模糊起来,我眯起眼睛,试图看清屏幕上的字,依稀能看到我的代码编辑器,正在用。

    我是热爱并且积极拥抱这些最新最酷的技术的人之一,但我猛然想到,那些不那么乐意拥抱新技术的人,就一定要被淘汰,这也是让人挺不舒服的一件事。

    未来科技 6小时前
  • 工业AI大模型落地应用的最新实践,都在这里

    上述问题,也正是我们即将在“大鲸AI闭门会·制造专场”上深入探讨的焦点!
     
    6月20日,虎嗅智库将在苏州举办“2024大鲸AI闭门会·工业制造专场”,汇聚信通院、美的、隆基绿能、施耐德电气等权威机构、头部甲方企业、工业智能企业的创新者,独家完整呈现甲方头部完整AI应用落地案例,并将围绕、“智能生产与排程”、“质量分析与数字模拟”、“人机协作与智能制造”等话题,共同探寻AI大模型在工业智造领域的落地应用。

    未来科技 7小时前
  • 果然,美国限制AI出口立法的进程又进一步

    Review(ID:Internet-law-review),作者:互联网法律评论,题图来自:视觉中国

    当地时间2024年5月22日,美国众议院外交事务委员会以压倒性多数,通过了一项限制AI模型出口的法案。

    只是从功用上对“涵盖的人工智能系统”进行了一定的概括,不过,这样的“新定义”基本上涵盖了“任何人工智能系统、软件或硬件”,只要这些物项满足以下条件:

    侵蚀美国国家安全或外交政策的方式。

    未来科技 8小时前
  • 微软Build:GPT-4o重塑Windows,奥特曼剧透新模型

    本文来自微信公众号:APPSO (ID:appsolution),作者:超凡、王萌、崇宇,题图来自:微软Build 今天凌晨,微软带来了一系列重磅产品,一口气发布了50多项更新。 …

    未来科技 8小时前
  • 产业政策的迷失:日本AI败局启示

    本来,日本在神经网络和深度学习方面有很强的底蕴,但在全面为第五代计算机服务的背景下,全社会的资源都在向专家系统这一路径倾斜,甚至连福岛邦彦这样的大佬都很难申请到需要的经费。而当第五代计算机的梦想在二十世纪九十年代最终破裂后,日本干脆削减了对整个AI学科的资金扶持,这就导致了最优秀的人才根本不愿意进入这个领域。

    一旦有日本的AI企业率先从类似的领域发起突围,并真正实现了盈利,那么日本全社会对AI兴趣的低迷就会被扭转,人才也会陆续重新回到这个领域。

    未来科技 8小时前
  • AI已经擅长欺骗人类,其阴暗面令人震惊

    从娱乐至生活,AI欺骗在扩散

    诚然,游戏无疑是一个相对可控的环境,我们可能倾向于认为,这种AI欺骗行为的危害并不严重。

    而且,这种欺骗能力并非仅存在于模型规模较小、应用范围较窄的AI系统中,即便是大型的通用AI系统,比如GPT-4,在面对复杂的利弊权衡时,同样选择了欺骗作为一种解决方案。

    AI欺骗的系统性风险

    毋庸置疑,一旦放任不管,AI欺骗给整个社会带来的危害是系统性和深远的。

    未来科技 8小时前
  • 第一个iPhone刺客,可能要倒下了

    //www.cnet.com/tech/mobile/humane-maker-of-wearable-ai-pin-is-exploring-a-sale-report-says/
    https。//techcrunch.com/2024/05/22/humane-the-creator-of-the-700-ai-pin-is-reportedly-seeking-a-buyer/。

    未来科技 9小时前
  • 第一波收割完的AI创企要跑路了?6年来仅做了一款产品

    创办Humane之前,Chaudhri曾在苹果公司担任设计师长达20年,据报道于2017年被苹果公司解雇,Bongiorno在苹果公司工作了8年,担任iOS和macOS的软件工程总监,并于2016年离职。

    Humane与微软的合作主要是体现在其利用微软的云基础设施搭建技术平台,同时,Humane也将OpenAI的技术集成到其设备中。

    未来科技 9小时前