三个清华校友，争抢大模型一哥

2024年4月19日 17:39 • 未来科技

2021年初，命名为悟道1.0的大模型登场，该系列大模型呈现了3000万图文数据对训练的多模态模型。

2023年10月，月之暗面推出了智能助手Kimi，成为大模型创业公司的首个爆款项目，3月19日，月之暗面宣布把长文本能力从20万字提升至200万字，其当周访问量达到了394万次，略高于文心一言的338万次，一度跃升为国内网页端周度访问量最高的AI应用。

仅仅过了一年，大模型竞争就出现了分野。

近期，有媒体报道称，由王小川创立的百川智能进行新一轮数亿美元融资，将成为国内2024年最大AI领域融资之一。来自参与的投资人证实，百川智能今年以来估值已超18亿美元（约130亿元）。对此，百川智能方面回应时代财经表示，报道存在一定误差，具体信息有待官方进一步宣布。

如果上述融资消息落地，这意味着又一家清华系大模型公司跻身百亿估值俱乐部。

据不完全统计，2019~2023年至少有30位清华校友下场创业，投入大模型产业，创办公司超过15家，累计融资超过150亿元。这些由清华校友创办的企业，在业内被称为“清华系”。

随着清华系大模型企业估值走高，一场行业内的“三国杀”默默上演。

大模型绕不开清华系

三年前，两位初代互联网创业大佬先后宣告退圈。

2020年12月，美团发布内部信宣布，美团联合创始人、高级副总裁王慧文已经顺利完成交棒，按计划正式退出。半年后，搜狗被腾讯收购，曾经在搜索领域叱咤风云的王小川也逐渐远离互联网舞台中央。

此时的大洋彼岸，AI学术界正升起一颗耀眼的新星。OpenAI推出的GPT-3横空出世，在学术界掀起不小波澜，其参数规模高达1750亿，不仅能做语言生成，而且对语言的理解能力也有了很大的提升。

对外界而言，GPT还远没有爆发出潜在的能量。但是一群清华大学的顶尖学者迅速做了一个重大的决定：追赶GPT3、投入大模型训练中。

三年后，GPT-4通过一款对话产品将大模型的风吹到全球各地。王慧文率先发起了AI大模型人才的招募令，紧接着，王小川、李开复等互联网明星创业者纷纷登场。王慧文、王小川这对昔日的清华校友，因为大模型再次交汇于竞技场上。只是这一次，他们离开舒适区后，还要面临着更多来自“学术圈”的对手。

在百模大战的核心风暴中，清华系毫无疑问地成为举足轻重的一方势力，他们如同一条奔腾的江河逐渐分流成各具特色的溪流，有的是在互联网时代身经百战的老法师，有的已经在大模型研究领域中蛰伏多年。

“如果你做大模型或者芯片，那你最好是清华的。”一位芯片行业从业者表示。诸多科研人才、创业公司与技术储备，共同构建起一张叫做“清华系”的人脉之网，这似乎已经成为某种行业共识。

过去一年里，大模型独角兽企业技术人员每天熬夜，为了追赶OpenAI前仆后继。

光年之外和智谱AI都把根据点选在了清华东门外的搜狐大厦；隔着一条街是赛尔大厦，王小川在此创立了百川智能；搜狐大厦南侧的成府路上也有两家清华系创业公司，分别是聆心智能和深言科技。

一场新的造富运动正轰轰烈烈开展，“清华系”成为绕不开的历史钢印。

一位先锋串起半部创业史

多年后，当外界追忆起这段烈火烹油的大模型创业潮时，智源研究所无疑会成为一个标志性的符号。这里距离清华大学南门步行只要5分钟，如今，清华主校区三公里以内都是大模型创业的根据地。

2020年，人工智能普遍陷入了进退两难的困局，AI四小龙市值跌落谷底，巨额的研发投入和低效的落地产出，使得一批投资人纷纷撤退。西南证券的一份研报显示，AI企业融资次数从2019年开始，出现了大幅下滑，九成AI公司处于亏损状态。

与外界浓重的悲观情绪相反，智源研究所正在默默酝酿着一场变革，该研究所齐聚了孙茂松、唐杰、刘知远、杨植麟等一众大模型先锋人物，他们一致认为大模型训练能够带来一场颠覆性的变革。

数百人将自己的热情和精力投入大模型的炼丹炉中，开启了一段漫长的开荒期。

2021年初，命名为悟道1.0的大模型登场，该系列大模型呈现了3000万图文数据对训练的多模态模型 BriVL 1.0、百亿参数中英双语大模型GLM-10B 与多模态模型CogView 1.0 等成果。

在此基础上，身为带队老师的唐杰做了一个更大胆的尝试，他调用外部资源，训练了几个百万亿级别的大模型。3个月后，悟道2.0系列大模型亮相。作为对标GPT-3的国产大模型系统，悟道2.0以1.75万亿的参数量，创造了当时全球最高纪录，超出了GPT-3近10倍，这也成为中国大模型初创阶段标志性的里程碑。

唐杰的另一个身份是智谱AI的创始人之一，公司成立于2019年6月，清华大学计算机系知识工程实验室是其摇篮，团队核心成员几乎都是清华血脉。

悟道系列大模型一战成名后，清华系创业的氛围被推向了一个小高潮。一批清华校友逐渐从实验室走出来，探究大模型商业化的路径。

2021年11月，黄民烈创立了聆心智能；2022年3月，孙茂松的博士生岂凡超创立了深言科技；2022 年 8 月，刘知远创立了面壁智能，专注于法律领域；2023年，同样师从孙茂松的朱军建立了生数科技。

此时，大模型创业团队再次面临一个困局：找不到大模型与市场的连接点，愿意吃螃蟹的企业并不多，甚至不知道怎样调度大模型的能力。

直到一个核爆点的出现，这批早期的开荒者才抢到了通向下一个技术变革的入场券。

学院派VS创业派

2022年11月，OpenAI推出的ChatGPT横空出世，自动生成文字的功能震撼了全球科技圈，用户规模在短短2个月内突破1亿，大模型开始进入大众视野。

如同一夜春风袭来，默默耕耘数载的清华系大模型收获了资本的青睐，最先抢占了风口。时代财经整理发现，2023年，清华系大模型的融资逐渐迎来了快车道，超过一半的清华系大模型第一笔上亿级别的融资发生在2023年。

“过去几年，AI投资基本为0，在大家觉得满眼雾霾的时候，突然ChatGPT出来了，给人带来了光。”澜舟科技创始人周明发出了这样的感叹。

这是一场深不见底的资源投入，训练一款高质量的大模型，需要数以万计的芯片集群和云计算调度，并且还要夜以继日的追赶被OpenAI叠高的行业指标，一旦开启，就意味着启动了庞大的碎钞机。

据国盛证券研报，GPT-3仅训练一次的成本就高达140万美元，对于一些更大的LLM，一次训练成本介于200万美元至1200万美元之间。智谱AI CEO张鹏也曾在公开场合表示，25亿元的融资根本不够，不管融多少、挣多少钱，都是通向AGI这条路上的盘缠。

2023年10月，智谱AI宣布完成超25亿元融资（估值过百亿元）；也在同一时期，百川智能迎来了新一轮的融资，金额超过3亿美元；月之暗面则在去年接连完成了两轮共计近20亿元的融资。

相比学院派艰难低调的蛰伏，互联网明星创业者通常更加果断坚决，他们对应用产品和市场有更为敏锐的判断力。2023年年初，在见证ChatGPT的问世后，身为互联网连续创业者的王小川嗅到了技术变革的气息，他激动地发了一条朋友圈：“OpenAI的胜利，是技术理想主义的胜利。”

先成立公司、再招募技术团队的路径，是创业者快速抢占市场目光的最佳方式。思考了两周后，王小川便放下了手头的智慧健康项目，转而进攻大模型。

不到半年，百川智能的团队便搭建起来了，王小川拿到5000万美元启动资金，正式宣布进入AI模型创业赛道。此外，他还拉来了旧部下——前搜狗COO、清华1998级校友茹立云，新的创业公司有一半成员来自原搜狗团队。

经历了长达半年的横冲直撞，独角兽大模型名单逐渐浮出水面——智谱AI、月之暗面、百川智能、MiniMax和零一万物，其2023年公开披露的融资约为100亿元，占全国AI投资的40%，清华系大模型再次赢得了半壁江山。

然而，从整体的融资规模来看，大模型概念的火爆并没有引发投资热潮。根据晚点报道，2023年AI领域的总融资额同比减少4.5%，为257亿元，不到2021年的一半。

“这个市场目前处在募资难、投资难、退出难的形势下，所以对于大模型，大多数机构还都是看为主，真正出手的话，也不像以前我们经常说的 FOMO（fear of miss out），是出于‘担心错过’的情绪。”梅花创投创始合伙人吴世春此前表示。

谁是清华系大模型一哥？

如果没有智能助手Kimi的爆火，月之暗面可能不会快速站在聚光灯下。过去一年，创始人杨植麟几乎隐匿于同门师兄声势浩大的追逐中，获得的曝光度并不多。

2024年开年，文生视频应用Sora、长文本概念走红，短暂熄火的大模型投资得以再次回温。月之暗面最先被资本抬高身价，传出完成新一轮超10亿美元的融资，这是ChatGPT出现后大模型赛道最大一笔融资，估值达到25亿美元（约180亿元），投资方包括阿里、红杉中国、小红书、美团等。

1992年出生的杨植麟成为整个大模型领域的焦点人物，入局大模型之前，杨植麟已经构思了两个问题，一是创业筹备的第一笔资本，二是构建创业的方向——通过与人类互动找到应用机会。

在部分行业人士看来，月之暗面弯道超车的武器在于绑定了长文本的标签，并且定位比较垂直。“面向C端的产品更容易赢得市场关注，但同时也会因为缺乏技术壁垒容易被超越。”AI创业者张维说道，他认为，大模型的发展方向依然比较模糊，大家都在摸着石头过河，面对的是一个完全未知的世界。

作为大模型行业的布道者，唐杰创立的智谱AI频繁对外投资，出现在13家大模型公司的融资队伍中，包括了算力、软硬件、应用、医药、保险等多个方向。

不过，当技术像烟花一样盛放光芒时，身在局中的人很难分清楚这是虚晃的幻术还是可以碰触的真实世界。

“以为得到一把万能的锤子，看见什么都觉得是钉子，但其实发现，业务场景很难切入。面向B端去做企业资源不够，选择做C端推广和成本都是问题。”张维向时代财经说道。

即便是生态较为成熟的百度，也尚未在大模型领域找到光明的出口。根据公开披露的数据，2023年最后一个季度，大模型为百度云业务仅带来6.6亿元的增量收入。

“掌握模型核心技术的团队会在竞争中脱颖而出，推出相应的应用产品，进行多次的迭代和优化，找到合适的路线。如果只单纯开发应用产品，没有自己掌握的核心技术，基本上只有一次试错机会。”启明创投合伙人周志峰近日在公开场合表示，在他看来，具备大模型技术水平的公司终将会走向模型应用一体化的公司。

如果把视线放在清华系竞技场的核心地带，“三国杀”也开始步入正题。

智谱AI、月之暗面和百川智能快速跻身100亿美元估值俱乐部，只是三者使用的武器并不相同：拥有学院派背景的智谱AI，在寻找企业与大模型的融合场景；月之暗面创始人杨植麟是极致的技术理想主义，他相信技术“暴力美学”能够改变世界；而在两种路线踌躇的王小川更想在理想主义和现实主义中找到另一种视角。

和大多数从业者一样，混沌与彷徨几乎贯穿了张维创业的一整年，不知道接下来行业走向何方的他，还在等待一个坐标系的出现。

本文来自微信公众号：时代财经APP （ID：tf-app），作者：徐晓倩，编辑：史成超

声明：该内容为作者独立观点，不代表新零售资讯观点或立场，文章为网友投稿上传，版权归原作者所有，未经允许不得转载。新零售资讯站仅提供信息存储服务，如发现文章、图片等侵权行为，侵权责任由作者本人承担。如对本稿件有异议或投诉，请联系：wuchangxu@youzan.com

Like (0)

抖音蓝海，制胜关键

Previous 2024年4月19日 17:14

深度解码SpaceX（下）：二代星座、星盾、马斯克与俄乌冲突

Next 2024年4月19日

水温80度：AI行业真假繁荣的临界点

我们从来没拥有过这么成功的AI主导的产品。

（这种分析统计并不那么准，但大致数量级是差不多的）

这两个产品碰巧可以用来比较有两个原因：

一个是它们在本质上是一种东西，只不过一个更通用，一个更垂直。

蓝海的海峡

未来成功的AI产品是什么样，大致形态已经比较清楚了，从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时“罢工”，全网打工人都慌了

美西时间午夜12点开始，陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载，忽然无法正常工作了。

因为发现AI用久了，导致现在“离了ChatGPT，大脑根本无法运转”。”

等等，又不是只有一个聊天机器人，难道地球离了ChatGPT就不转了。

大模型连崩原因猜想，谷歌躺赢流量激增6成

GPT归位，人们的工作终于又恢复了秩序。

未来科技 2024年6月5日
ChatGPT宕机8小时，谷歌Gemini搜索量激增60%

ChatGPT一天宕机两次

谷歌Gemini搜索量激增近60%

ChatGPT在全球拥有约1.8亿活跃用户，已成为部分人群工作流程的关键部分。

过去24小时内提交的关于OpenAI宕机的问题报告

图片来源：Downdetector

ChatGPT系统崩溃后，有网友在社交媒体X上发帖警告道：“ChatGPT最近发生的2.5小时全球中断，为我们所有依赖AI工具来支持业务的人敲响了警钟。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时大崩溃，AI集体罢工让全网都慌了

接着OpenAI也在官网更新了恢复服务公告，表示“我们经历了一次重大故障，影响了所有ChatGPT用户的所有计划。Generator调查显示，在ChatGPT首次故障后的四小时内，谷歌AI聊天机器人Gemini搜索量激增60%，达到327058次。

而且研究团队表示，“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关，显示出用户把Gemini视为ChatGPT的直接替代选项。

未来科技 2024年6月5日
深度对话苹果iPad团队：玻璃的传承与演变

iPad最为原始的外观专利

没错，这就是iPad最初被设想的样子：全面屏，圆角矩形，纤薄，就像一片掌心里的玻璃。

2010年发布的初代iPad

好在乔布斯的遗志，并未被iPad团队遗忘。

初代iPad宣传片画面

乔布斯赞同这一想法，于是快速将资源投入平板电脑项目，意欲打造一款与众不同的「上网本」，这就是iPad早年的产品定义。

iPad进化的底色

苹果发布会留下过很多「名场面」，初代iPad发布会的末尾就是一例。

未来科技 2024年6月5日
底层逻辑未通，影视业的AI革命正在褪色…

GPT、Sora均为革命性产品，引发了舆论风暴，但它在上个月发布的“多模态语音对谈”Sky语音，却由于声音太像电影明星斯嘉丽·约翰逊，被正主强烈警告，被迫下架。

华尔街日报也在唱衰，认为“AI工具创新步伐正在放缓，实用性有限，运行成本过高”：

首先，互联网上已经没有更多额外的数据供人工智能模型收集、训练。

03、

如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向，那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

但分歧点正在于此，电影公司希望通过使用AI技术来降低成本，但又不希望自己的内容被AI公司所窃取。

未来科技 2024年6月5日
KAN会引起大模型的范式转变吗？

“先变后加”代替“先加后变”的设计，使得KAN的每一个连接都相当于一个“小型网络”，能实现更强的表达能力。

KAN的主要贡献在于，在当前深度学习的背景下重新审视K氏表示定理，将上述创新网络泛化到任意宽度和深度，并以科学发现为目标进行了一系列实验，展示了其作为“AI+科学”基础模型的潜在作用。

KAN与MLP的对照表：

KAN使神经元之间的非线性转变更加细粒度和多样化。

未来科技 2024年6月5日
这个国家，也开始发芯片补贴了

//mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
[4]中国安防协会：欧盟批准430亿欧元芯片补贴计划：2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
[6]潮电穿戴：印度半导体投资大跃进，一锤砸下1090亿，政府补贴一半.2024.3.5https。

未来科技 2024年6月5日
大模型的电力经济学：中国AI需要多少电力？

这些报告研究对象（数字中心、智能数据中心、加密货币等）、研究市场（全球、中国与美国等）、研究周期（多数截至2030年）各不相同，但基本逻辑大同小异：先根据芯片等硬件的算力与功率，计算出数据中心的用电量，再根据算力增长的预期、芯片能效提升的预期，以及数据中心能效（PUE）提升的预期，来推测未来一段时间内智能数据中心的用电量增长情况。

未来科技 2024年6月5日
你正和20万人一起接受AI面试

原本客户还担心候选人能否接受AI面试这件事，但在2020年以后，候选人进行AI面试的过程已经是完全自动化的，包括面试过程中AI面试官回答候选人的问题，AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

以近屿智能与客户合作的校验周期至少3年来看，方小雷认为AI应用不太可能一下子爆发，包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

未来科技 2024年6月4日

三个清华校友，争抢大模型一哥

相关推荐