AI大模型价格战，敢不敢再狠一点

2024年5月30日 21:37 • 未来科技

DeepSeek-V2的输入与输出价格分别为1元/百万tokens和2元/百万tokens，远低于市场价。

豆包通用模型Pro-32k的输入价格，被一刀砍到了更低的0.8元/百万tokens。

例如字节跳动的“0.8元/百万tokens”“比行业价格低99.3%”，其实只是输入价格。

当然，云计算厂商并非唯一的参与者。

纵观历史可以发现，当年移动互联网的大规模普及，也是建立在基础设施降本之上的。

谁也不曾想到，大模型产业的首次“集体会战”，居然围绕价格展开。

5月6日，私募巨头幻方旗下的深度求索，打响了降价第一枪。深度求索发布的模型DeepSeek-V2（32k），在数学、编程、中英文等能力上已逼近GPT-4；然而，DeepSeek-V2的使用价格仅约为GPT-4o的1/35。

DeepSeek-V2的输入与输出价格分别为1元/百万tokens和2元/百万tokens，远低于市场价。

比拼多多砍一刀还便宜的价格，惊动了不少美国专家。知名分析师Dylan Patel读完DeepSeek-V2的论文后，激动地表示：“这可能是今年最好的一篇。^[1]”

DeepSeek-V2的论文

一周后，“卷王”字节跳动又添一把火。

豆包通用模型Pro-32k的输入价格，被一刀砍到了更低的0.8元/百万tokens。火山引擎总裁谭待表示，“豆包比行业价格低了99.3%，大模型从此以厘计价。”

眼看友商如此不讲武德，其他科技公司再也坐不住了。

阿里率先回击，一狠心，大举下调了所有模型的价格。

几个小时后，百度干脆冲向竞价终点：宣布两款轻量级模型全面免费。紧接着，科大讯飞星火Lite API、腾讯混元大模型lite 256k也相继宣布免费。

如此盛况，很难不让人梦回那段滴滴大战快的、ofo摩拜互扯头发的激情岁月。

然而，围绕大模型的价格战，远不如网约车、共享单车那般直观，各种专业名词让人摸不着头脑。所以，这些大模型公司，到底在热闹些什么？

想要理解这点，首先得知晓大模型的商业模式。以阿里云为例，它所提供的大模型服务，共有3种^[2]：

（1）基础服务：模型推理。

模型推理，指的是根据输入的信息内容，给出回答的过程。换句话说，推理就是“实际使用”模型的过程。

阿里云预置了多个性能不同的“标准版模型”，供用户推理。该服务的计费方式很简单，即“以量计价”：以消耗的token数量为单位，用得越多，费用越高。并且性能越好的模型，收费越贵。

token是大模型用来衡量文本长度的一种计数单位，可以简单理解为“字数”。3本篇幅为75万字的《三国演义》，大约需要125万个token。

（2）进阶服务：模型微调。

如果觉得“标准版模型”不好用，阿里云还提供了“定制研发”服务，即模型微调。具体收费，则取决于“定制研发”消耗的计算资源与开发周期。

（3）超进阶服务：模型部署。

当用户需要长期使用大模型时，最好的方式是将它部署到独占实例中。

独占实例，指的是直接承包一个或多个物理服务器的全部资源。翻译成人话就是，不再只是租一个商铺，而是将整个商业广场都租下来。

这么做的好处在于，没有别的商户和你抢计算资源，响应速度更快。

其收费模式，也是以量计价，但有两种形式：阿里是直接按照“商业广场”消耗的计算资源计费；除此之外，百度还支持按照模型推理的token数量计费。

这3种收费模式，面向的是企业与个人开发者，代表了大模型开发由浅入深的过程。而各大科技公司疯狂砍价的，其实是上文提到的“基础服务”，即“标准版模型”的推理费用。

推理费用的具体定价，又分成了“输入”和“输出”两部分。

简单来说，输入就是用户提问的内容，而输出则是大模型的回答。科技公司往往会根据输入和输出的token数量（字数），进行两次计费。

这种复杂又细微的差异，很容易成为科技公司的套路。

例如字节跳动的“0.8元/百万tokens”“比行业价格低99.3%”，其实只是输入价格。豆包通用模型Pro-32k的输出价格仍是2元/百万tokens，与DeepSeek-V2等同行持平。

由此可见，别看大模型价格战打得火热，背后实则另有洞天。

降价的千层套路

可以发现，本轮价格战最为活跃的，基本上都是云计算公司，代表厂商是BAT和字节跳动。

它们之所以敢如此降价，还是因为能从别的地方弥补损失，羊毛出在羊身上。

正如前文提到，降价乃至免费的，其实只是基础服务。

毫无疑问，这可以帮助中小开发者以更低的成本构建应用。然而，当开发者或者企业，需要更贴合自身业务，深入使用大模型时，往往绕不开进阶的模型微调和模型部署——这两项服务，可不是本次价格战的主角。

例如百度宣布免费的ERNIE-Speed-8K，如果实际部署，收费就变成了5元/百万tokens^[3]。

与此同时，各家降价最狠的，其实都是轻量级的预置模型；相比之下，性能更强悍的“超大杯”模型，实际降价幅度没有那么夸张。

例如阿里的Qwen-Max，实际与字节跳动的豆包通用模型Pro-32k一样，只是降低了输入的价格；而隔壁的百度，压根没提“超大杯”模型。

云计算厂商的价格战，更像是用“免费游戏”的形式吸引更多玩家加入；但若想继续“升级变强”，该氪金还得氪金。

当然，云计算厂商并非唯一的参与者。

以深度求索与智谱AI为代表的明星初创公司，之所以也敢跟进内卷，很大程度上是因为有充足的弹药，尤其是算力资源。

早在大模型尚未爆发的2020年，背靠私募巨头幻方的深度求索，就投资了上亿元筹建AI超级计算机。

目前，幻方是除BAT、商汤、字节跳动外，第六家拥有1万张以上英伟达A100 GPU储备的中国公司^[4]。

而智谱AI则背靠阿里和腾讯，是估值过百亿的AI独角兽公司。

2020年时，智谱AI也碰巧囤积了不少GPU资源。其CEO张鹏曾在接受《中国企业家》采访时提到：当时，他认识的一家云计算厂商，有一批GPU积灰了。这批GPU原本是供应给游戏公司的，但阴差阳错之下，对方又不买了。张鹏知道这个消息后，顺势接盘了这批计算资源^[5]。

现金流、算力资源都充足的情况下，即便烧钱换市场，这些初创公司也能扛得住。

那么问题来了：当年移动互联网补贴换市场，尚可以简单粗暴地归因为“技术门槛低”；主打一手高科技的大模型，怎么也没走出价格战的怪圈？

必经之路

大模型智能化带给世人的震撼，往往让人忽视它的本质，其实是一种基础设施。

去年，知名计算机科学家吴恩达曾在公开演讲中提到：

AI其实是一系列工具的集合。这些工具包括了监督学习、非监督学习、强化学习，以及现在的生成式人工智能。所有这些都是通用技术，意味着它与电力和互联网等其他通用技术，并没有什么区别^[6]。

电力与互联网，并没法直接创造价值；真正改变世界的，其实电灯、电脑、电商、电子游戏。

然而，应用的爆发其实有一个前提：即基础设施足够便宜。此前，大模型应用没能快速铺开的一个主要困境，正是使用成本过高。

哄哄模拟器就是一个典型的案例。

今年年初，一位名叫王登科的独立开发者，开发了一款模拟“生气女朋友”形象的AI应用。该应用的玩法很简单，用户必须斗智斗勇哄好对话窗口里的AI女友。

因为交互简单和立意颇有情趣，哄哄模拟器上线第一天就吸引了60多万用户。

突然的爆红，却让王登科哭笑不得。哄哄模拟器使用了预置的GPT-3.5模型，运营一早上就花了他2000多美金的推理费用。

这就相当于，开发了个App，还没想到咋赚钱，先交了1万块钱电费。

纵观历史可以发现，当年移动互联网的大规模普及，也是建立在基础设施降本之上的。

2014年的一份调查报告显示，当时由于流量费用高昂，手机用户每天使用流量不会超过3小时。且不使用移动网络时，很多用户会选择将其关闭，以防止手机应用在后台消耗流量^[7]。

彼时，大多数用户，都曾做过“一觉醒来房子归中国移动”的噩梦。

2013年的时候，快手就明确了“短视频社区”的定位，但增长相对缓慢。这背后，很难说没有大环境的原因。

事实上，直到电信运营商开始大搞“降费提速”，短视频行业才真正开始爆发。

2019年，手机上网流量资费较2014年时已下降了超90%^[8]。至此，手机淘宝、微信、抖音等才逐渐成为字面意义上的“国民应用”。

由此可见，降价其实是大模型产业发展的必经之路。

也许在这轮价格战中，云计算厂商与初创公司，各有各的小九九；但对开发者和普通用户来说，建议可以打得再狠一点。

参考资料

[1]OpenAI Is Doomed，SemiAnalysis

[2]阿里云大模型服务平台百炼

[3]千帆大模型平台

[4]量化巨头发布第一代大模型：免费商用，完全开源，澎湃新闻

[5]智谱AI CEO张鹏：中国大模型创业者，不再追随OpenAI，中国企业家

[6]Andrew Ng:Opportunities in AI-2023，Stanford Online

[7]2014年中国手机流量使用报告：近四成用户流量不够用，中国新闻网

[8]工业和信息化部组织召开“提速降费”用户面对面座谈会

本文来自微信公众号：远川科技评论（ID：kechuangych），作者：叶子凌，编辑：陈彬，视觉设计：疏睿

声明：该内容为作者独立观点，不代表新零售资讯观点或立场，文章为网友投稿上传，版权归原作者所有，未经允许不得转载。新零售资讯站仅提供信息存储服务，如发现文章、图片等侵权行为，侵权责任由作者本人承担。如对本稿件有异议或投诉，请联系：wuchangxu@youzan.com

Like (0)

黑客盯上了大模型

Previous 2024年5月30日

5 AI Trends Transforming the Future of Retail

Next 2024年5月30日

水温80度：AI行业真假繁荣的临界点

我们从来没拥有过这么成功的AI主导的产品。

（这种分析统计并不那么准，但大致数量级是差不多的）

这两个产品碰巧可以用来比较有两个原因：

一个是它们在本质上是一种东西，只不过一个更通用，一个更垂直。

蓝海的海峡

未来成功的AI产品是什么样，大致形态已经比较清楚了，从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时“罢工”，全网打工人都慌了

美西时间午夜12点开始，陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载，忽然无法正常工作了。

因为发现AI用久了，导致现在“离了ChatGPT，大脑根本无法运转”。”

等等，又不是只有一个聊天机器人，难道地球离了ChatGPT就不转了。

大模型连崩原因猜想，谷歌躺赢流量激增6成

GPT归位，人们的工作终于又恢复了秩序。

未来科技 2024年6月5日
ChatGPT宕机8小时，谷歌Gemini搜索量激增60%

ChatGPT一天宕机两次

谷歌Gemini搜索量激增近60%

ChatGPT在全球拥有约1.8亿活跃用户，已成为部分人群工作流程的关键部分。

过去24小时内提交的关于OpenAI宕机的问题报告

图片来源：Downdetector

ChatGPT系统崩溃后，有网友在社交媒体X上发帖警告道：“ChatGPT最近发生的2.5小时全球中断，为我们所有依赖AI工具来支持业务的人敲响了警钟。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时大崩溃，AI集体罢工让全网都慌了

接着OpenAI也在官网更新了恢复服务公告，表示“我们经历了一次重大故障，影响了所有ChatGPT用户的所有计划。Generator调查显示，在ChatGPT首次故障后的四小时内，谷歌AI聊天机器人Gemini搜索量激增60%，达到327058次。

而且研究团队表示，“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关，显示出用户把Gemini视为ChatGPT的直接替代选项。

未来科技 2024年6月5日
深度对话苹果iPad团队：玻璃的传承与演变

iPad最为原始的外观专利

没错，这就是iPad最初被设想的样子：全面屏，圆角矩形，纤薄，就像一片掌心里的玻璃。

2010年发布的初代iPad

好在乔布斯的遗志，并未被iPad团队遗忘。

初代iPad宣传片画面

乔布斯赞同这一想法，于是快速将资源投入平板电脑项目，意欲打造一款与众不同的「上网本」，这就是iPad早年的产品定义。

iPad进化的底色

苹果发布会留下过很多「名场面」，初代iPad发布会的末尾就是一例。

未来科技 2024年6月5日
底层逻辑未通，影视业的AI革命正在褪色…

GPT、Sora均为革命性产品，引发了舆论风暴，但它在上个月发布的“多模态语音对谈”Sky语音，却由于声音太像电影明星斯嘉丽·约翰逊，被正主强烈警告，被迫下架。

华尔街日报也在唱衰，认为“AI工具创新步伐正在放缓，实用性有限，运行成本过高”：

首先，互联网上已经没有更多额外的数据供人工智能模型收集、训练。

03、

如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向，那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

但分歧点正在于此，电影公司希望通过使用AI技术来降低成本，但又不希望自己的内容被AI公司所窃取。

未来科技 2024年6月5日
KAN会引起大模型的范式转变吗？

“先变后加”代替“先加后变”的设计，使得KAN的每一个连接都相当于一个“小型网络”，能实现更强的表达能力。

KAN的主要贡献在于，在当前深度学习的背景下重新审视K氏表示定理，将上述创新网络泛化到任意宽度和深度，并以科学发现为目标进行了一系列实验，展示了其作为“AI+科学”基础模型的潜在作用。

KAN与MLP的对照表：

KAN使神经元之间的非线性转变更加细粒度和多样化。

未来科技 2024年6月5日
这个国家，也开始发芯片补贴了

//mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
[4]中国安防协会：欧盟批准430亿欧元芯片补贴计划：2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
[6]潮电穿戴：印度半导体投资大跃进，一锤砸下1090亿，政府补贴一半.2024.3.5https。

未来科技 2024年6月5日
大模型的电力经济学：中国AI需要多少电力？

这些报告研究对象（数字中心、智能数据中心、加密货币等）、研究市场（全球、中国与美国等）、研究周期（多数截至2030年）各不相同，但基本逻辑大同小异：先根据芯片等硬件的算力与功率，计算出数据中心的用电量，再根据算力增长的预期、芯片能效提升的预期，以及数据中心能效（PUE）提升的预期，来推测未来一段时间内智能数据中心的用电量增长情况。

未来科技 2024年6月5日
你正和20万人一起接受AI面试

原本客户还担心候选人能否接受AI面试这件事，但在2020年以后，候选人进行AI面试的过程已经是完全自动化的，包括面试过程中AI面试官回答候选人的问题，AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

以近屿智能与客户合作的校验周期至少3年来看，方小雷认为AI应用不太可能一下子爆发，包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

未来科技 2024年6月4日

AI大模型价格战，敢不敢再狠一点

相关推荐