希望Sora别走GPT-4的老路

2024年2月20日 15:18 • 未来科技

这几个大厂，如果过去整整一年，整个大模型团队的产出都靠接别人的，首先，这token量无比之大，OpenAI对单账户是有明确限制且2023年新账号一度暂停申请，这种规模的使用量，怎么可能撑住一年。

当论证一项新的应用技术怎么颠覆传统产业时，最起码要搞明白传统产业是怎么运行的，比如究竟什么是创意内容、什么是短视频、什么是流量分发、什么是电影工业和广告。

秉着让子弹飞一会儿的想法，开工三天了才来聊Sora，一个直观感受是：这一波在国内AI、科技圈的热度远不如去年初GPT-3.5的问世。

但仍不得不说，Sora的表现堪称惊艳，国内大模型要追赶上也仍需时日，只是动不动又说很快要颠覆、掀起惊涛骇浪、又大幅拉开中美差距之类的，对促进认知没有意义。

看了官方发布的几十个视频和论文中译版及专业解读，也看了一些算法专家的分析，文生视频和文生文是有较大不同，但总离不开基础理论、算法模型、数据源和工程化等几方面的迭代。

Sora的出现，基础理论并没有重大创新，算法模型是基于现有几种的混合应用，数据源和质量没有披露，工程化细节也没有解密，当然这也是最具壁垒的部分。

一

工程化能力是近几年被高频提及的词，简单讲一种新材料可以在实验室的反复试错条件下获得极小部分颗粒，但要形成年产万吨的材料，则需建造一个占地百亩的化工园区，大到一套高达数十米的裂解装置，小到里面零零散散的精密元件，以及运营数据背后高度关联的一套套监测、控制软件。万分之一的细节不足都可能影响产品品质、生产效率乃至安全风险。

大模型领域的工程化能力自然不会涉及那么多大型装备、安装调试、工艺流程和更为复杂的项目管理，但一个不一样的壁垒在于，这需要算法、机器视觉等领域极高的人才门槛和钻研深度，不是单纯的人才密度。

从Sora的论文发布可以看出，核心研究团队就那么几个人，并且核心作者还是刚毕业的几个博士甚至本科学历。国内top10的计算机专业院校，每年毕业数以千计的计算机博士，更别说算上硕士、本科学历，但为什么这些人可能都去不了达摩院，更别说被OpenAI以一两百万美金年薪的应届生招进去，是的，他们比国内P10薪资还高得多。

这就是为什么在国外诞生Pika，在国内有Minimax， Moonshot的一个根本原因。有顶尖学历的人才不少，但其中具备较高的产品思维能力、优秀的创造性问题解决能力以及极强的热爱精神的，少之又少。这几个条件缺一个，都没办法用惊人的速度在工程化的道路上解决数以百计的熬人挑战。

就我认识的AIGC领域创业者、技术大拿都有个特质，为解决一个大问题可以连续一周通宵，平均每天睡3小时。其实是够睡的，因为人在极度亢奋情况下根本没睡意。纵观人类的科研历史已经反复证明，哪怕是顶尖聪明的科学家，也只有一定时期内处于高度亢奋状态，才可能突破5%以外的人类智力极限，尤其普遍发生在35岁前。

但另一方面还得强调门槛，这批作者几乎都是全美顶尖计算机专业院校的尖子生，这种人才放到全世界，每年的产量恐怕也就上百人，其实是极为稀缺的。先得识别出这样的尖子生，还得给予去大厂5-10倍的应届生年薪，然后这批人还得满足以上几个特质，并且最终还得背靠极其烧钱的基础设施能力，这是OpenAI对抗大厂的一个关键壁垒，不在于堆人。

所以总有人问，我们赶上别人需要多久？重点不在于多久，而在于别人为什么总能比你领先。把这个背后的一整套逻辑看清晰，那么我们要解答的就不是多久，而是怎么去打造这样的创新环境和激励机制。

其实国内大厂早就对此有深刻的反思，毕竟也是一批次顶尖人才，虽然待在大厂发挥不了实力，但不代表看不懂别人为什么能干出来。不仅反思，也做了应对方案。譬如阿里，虽然堆了自研团队，人数很多，但既不够出挑，也不够卖命。达摩院的一些大牛走得也差不多了。所以还得买个保险，必须同时下注（投资）外部的独立创业团队。

这里有个细节，有人鼓吹说大厂全靠接GPT-4接口的说法，我不认同。国内搞大模型的5家大厂和5家独立团队，如果有1-2家完全靠接GPT-4接口，或许是可信的，但把国内top大模型说得如此一文不值，不符合逻辑。

这几个大厂，如果过去整整一年，整个大模型团队的产出都靠接别人的，首先，这token量无比之大，OpenAI对单账户是有明确限制且2023年新账号一度暂停申请，这种规模的使用量，怎么可能撑住一年？其次，你是字节、阿里、百度的大模型一号位，这种大规模用量的套壳操作，你敢？

充其量不过是小规模使用下，学习友商的一种策略。哪个企业追赶对手，不把对手的产品大卸八块、反复研究的？至于基于别家的开源大模型，除了李开复的团队说得不明不白的，已经被圈内吐槽吃相难看了，还有哪几家没说清楚的？用开源不丢人，关键得说清楚。

所以不必问追赶还需多久，只需想想：OpenAI的竞争优势，我们怎么弥补。META首席科学家、AI大神Yan LeCun最近还就中国的学术环境发表评论，他说咱们的目标导向有点问题、激励机制不是太完善，翻译过来就是唯利是图、氛围糟糕。

不仅在AI领域，硬科技走到深水区后也是如此，绝大部分院士级的硬科技项目，哪个教授每天只睡3小时，然后把剩余时间100%投入创业的？我看到的都是，教授既不从高校离职，也没全情投入，所谓研发就是包给研究生干苦力，自己占大股。

做得出来是自己的，做不出来继续享受学术圈的座上宾，一个不落。真搞不出来，普通投资人敢动院士一根毫毛？这就是咱们该反思的，这种基础科学的学术环境下，怎么可能在源头保持竞争力？所以真正好人才，一半都去国外了。

二

接下来进入正题，Sora足够惊艳毫无疑问，但关键问题仍需探讨。

首先，Sora团队并没有明确说，已经能实现基于成熟的世界因果关系模型，而是巧妙地用了“世界模拟器”这种描述，但共生关系和复杂世界运行背后的连续因果关系是两个层次。顶尖学术圈是很严谨的，即便奥特曼是资本运作和营销大师，也不会随便乱说。

就在Sora发布后的2-3天，Yan LeCun在世界政府峰会上就差指名道姓点出自己对Sora的不看好，指出这并不是真正的世界模型，并且仍会面临GPT-4的巨大瓶颈。这样的学术大神也是爱惜自己名声的，如果真牛，人家不会吝啬，更不会如此坚定地不看好。

涌现这个词也被用烂了。去年GPT刚出现涌现能力时，说实话哪怕大神也得掂量几分，坐等后续，结果呢？伴随而来的是海量、持续、难以解决的幻觉、精度问题，到今天依然无法解决。

文生文、文生图片到底在全世界颠覆了什么产业？好像放眼全球也没看到哪个能解决过去长期人类痛点的全球规模化的商业应用，有么？2C的没有，2B的更没有。GPT-4用周鸿祎的说法，影响力已经从原子弹变成茶叶蛋。

放到文生视频，目前只是测试阶段，还未放开。既然GPT-4至今仍无法解决幻觉严重问题，换到文生视频工具上，任何复杂视频的生成也无不牵涉到物理世界数以万计的因果关系和逻辑推理，现在还只是几只猫、几条船翻来覆去绕，大规模开放使用后，有没有可能在修复当前bug的同时，也出现越来越多且难以消除的幻觉以及corner case问题？

一旦放开使用，有没有可能出现数以百万个逻辑漏洞百出的视频全世界满天飞？然后和当初GPT横空出世一样，全世界用好玩的心态玩一遍，最后发现大规模商业化并不容易。

马斯克这两天还对Sora进行了补刀，他说这个能力特斯拉一年前就有了并已经在用，FSD的训练视频也有文生视频，对真实道路的视频模拟也达到了高颗粒度的物理世界还原，只是都是些房子、车子、路桥、杂货铺子和来来往往的行人，发出来也很无趣。

所以有人说马斯克退出OpenAI董事会肯定相当后悔，那是你想多了。这个人过去20年把世界上不可想象的极难、伟大任务都完成了，领导世界顶尖的AI团队，自己还有2500亿美金的身价。今天只要马斯克觉得值得优先干的事，他为什么不干？同理，他面对全世界的自信满满，你觉得是逗着玩？

奥特曼应该找马斯克好好聊下：兄弟，没必要老怼我，怎么说也有OpenAI创业缘分，再说了，不为OpenAI考虑，也得为50万亿美元的美股市场考虑下。OpenAI搞不成没关系，美股怎么办？世界经济怎么办？

依然用开头的话来总结：Sora很惊艳，国内追赶尚需时日，问题咱们自己也清楚，问多久赶上不如问我们差在哪儿。同时，Sora自身仍充满挑战，较大可能走到GPT-4的大瓶颈，全球级的学术大神、产研巨佬均不看好或不屑一顾。

三

说点看了一堆文章都没分析却不得不分析的论证。

Sora的文生视频之惊艳，确实让人想到是不是在电影、短视频、游戏、后期制作、广告等领域有最直接的应用价值。大部分人只是直觉认为行，却不深入思考为什么能行。

先做个假设，即使Sora很成熟，成本和使用门槛也足够低，且99%情况下没bug，那Sora的文生视频工具，到底能撬动多大的市场？我们粗略把内容分成长视频、短视频，以及不同精美程度下的各类内容题材。

首先就内容创意领域。很多人不知道，每年各种小电影、微电影、网络电影乃至动辄几千万投入的院线电影加起来有几万部，并且大部分还是专业人士进行编导的，最终能到院线排片的就几百部，能出圈的就十几部。

国内全职的编导从业者就有几十万人，细分到文艺、喜剧、悬疑、科幻等不同内容题材，里面既有阳春白雪，也有精神垃圾，应有尽有，凭什么人家靠吃饭的家伙都只能勉强过活，而所谓有创意天赋的人，加上好的生产工具就能超越这几十万专业人士？

好内容离不开传播平台，再讲内容分发。

照理说有短视频平台的加持，这每年几万部电影不应该有出圈机会么？实际上哪个导演、编剧是靠短视频产生了可持续的商业模式的？如果短视频上能跑通长视频，那爱优腾早就倒闭了，这是一个基本的互联网产品思维，也是为什么抖音上最火的电影都是精华剪辑风格，即便严重侵犯了版权。

短视频平台走不通的话，那制作一批精美的长视频内容，走院线、爱优腾渠道呢？那更是异想天开。群众的审美是有限的、院线的档期是有限的、明星的稀缺是有限的、资本的力量是无限的，宁浩加上刘德华都搞不定的市场，岂是内容优劣决定的？

一部全程靠宣传减肥的电影，获得了1亿骂声和1亿叫好，也获得了几十亿票房，贾玲无疑是极其成功的商业片导演，但成功背后是为什么？真实的传统电影市场及其产业链，远比随便YY复杂得多，岂是一个有满腹创意的普通人，加上一套神级制作工具，能掀翻的？

说完长视频，再说短视频内容。抖音早年能一骑绝尘，靠的那些搞笑、生活视频，并没有多大的制作成本，放到今天也就上千到几千块的单个视频成本，但是，视频脚本的逻辑性以及人物演绎张力背后的一连串细微因果关系，并不简单。本来就上千的制作成本，用了Sora恐怕还得反复微调，那Sora到底能起到什么颠覆作用？

这是简单内容的短视频生成，那如果是自动生成精致、酷炫的短视频内容呢？我挺爱刷那些好莱坞科幻电影集锦的，但至今重复刷到的概率也很低，就这批好莱坞水准的内容供给量也已经够了。抖音是要啥有啥，和源源不断的内容供给相比，流量才是稀缺且宝贵的，这是平台的命根子。

即便再有5倍量的靠Sora生成的科幻微电影，凭什么流量要给你，而不是直接用正儿八经重金投入的大片剪辑？短视频内容从题材来看是两极化的，用户既需要精神垃圾，也需要大片视觉和阳春白雪，无论哪种在供给侧都不是稀缺，而是有些过剩了。凭什么在流量还要分给直播和商城板块时，还要溢价招募新的AI内容创作者？挺讲不通的，这不是生意逻辑。

再插一下关于科幻电影、3D游戏及其背后的后期制作软件市场，这应该是Sora在克服一系列技术挑战后，能产生直接商业化影响的领域。

科幻电影制作比3D游戏制作需要用到更多软件，剪辑、合成、跟踪、模型、特效几个环节经常用到的软件包括Nuke， Houdini， Adobe Premiere & AE，游戏制作常用软件就更知名，包括市值200亿美金的Unity和Unreal。

但这属于AI在2B市场的应用，和2C领域是完全不同的商业竞争逻辑。即便Sora成功了，能不能长期形成绝对壁垒，确保其他友商的水平永远差得远？如果不是，那最终结果无一例外是把产品价格打下来、市场规模打下来。

因此，假设Sora能让好莱坞大片、重度3D游戏的后期制作成本和周期大幅下降，但这并没有根本性改变电影、游戏行业的格局，也不能左右院线的排片、明星的档期、发行的渠道、资本的偏好。倒是把后期制作软件市场干萎缩了。

最后说广告制作，这更没什么可讲。随便问下你身边在广告公司干过的人，算一算该公司一年营收里，用于广告制作的成本是多少，广告制作的成本结构又是怎样的。

当我们说一则大片广告花了1亿预算时，大部分是流量投放成本，制作一般在几百万，尽管不算低，但其中大头并不是广告公司赚的，是给广告导演赚走了，创意赚不了几个钱。

当Sora足够好用时，能影响的也不过是这批赚得盆满钵满的广告导演的报价从几百万砍到几十万，这又能给广告行业带来多大冲击呢？本身就是个苦命的行当，钱都给流量平台拿走了，还能怎么颠覆？

当然，还会有其他场景的商业化应用可能性，不一一举证，说这些的目的无非是觉得每次谁放大招，能看的文章不是一味夸上天，各种马上要颠覆，就是东搬西抄，稍微有点独立、深度、辩证思考和价值判断的分析少之又少。

说错也没关系，就像我们上一篇卫星文章，洋洋洒洒几千字，但犯了一个比较大的论点错误被人指出，后面会重新论证。AI投资圈已经够惨了，大家还是切实际一些，反倒能发现一些新出路、创造一些新机会。

最后补充一点，目前生成式AI领域还没迎来真正的竞争，大家都在试错和探索阶段，仍要时刻关注类似META/Google等大厂的切实进展，尽管大厂有大厂的组织效率问题，但毕竟仅这两家就超过1200亿美金的利润，谁知道这些大厂有没有暗地里两条腿走路呢？只是当下犯不着和一家擅长营销、营收还在十几亿的初创企业干架。

还得留意一点，OpenAI这个神奇公司，去年上演了全球惊叹的宫斗戏后，首席科学家Ilya已经很久没发声，这次Sora发布也就他没出声。此外，另一位初创成员、技术大牛Andrej Karpathy恰巧在Sora发布前宣布离职，他之前是特斯拉自动驾驶的负责人，对FSD的发展起到关键作用。

他们出去后会做什么？联合做点事还是一起去特斯拉帮衬？这么看，OpenAI接下来除技术突破外，好戏应该也免不了。

本文来自微信公众号：瑞泽洞察（ID：gh_f10a7c242141），作者：瑞泽洞察

声明：该内容为作者独立观点，不代表新零售资讯观点或立场，文章为网友投稿上传，版权归原作者所有，未经允许不得转载。新零售资讯站仅提供信息存储服务，如发现文章、图片等侵权行为，侵权责任由作者本人承担。如对本稿件有异议或投诉，请联系：wuchangxu@youzan.com

Like (0)

零基础速学插画，怎么就成了大型智商税？

Previous 2024年2月20日 15:12

三只松鼠想明白了

Next 2024年2月20日 15:23

水温80度：AI行业真假繁荣的临界点

我们从来没拥有过这么成功的AI主导的产品。

（这种分析统计并不那么准，但大致数量级是差不多的）

这两个产品碰巧可以用来比较有两个原因：

一个是它们在本质上是一种东西，只不过一个更通用，一个更垂直。

蓝海的海峡

未来成功的AI产品是什么样，大致形态已经比较清楚了，从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时“罢工”，全网打工人都慌了

美西时间午夜12点开始，陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载，忽然无法正常工作了。

因为发现AI用久了，导致现在“离了ChatGPT，大脑根本无法运转”。”

等等，又不是只有一个聊天机器人，难道地球离了ChatGPT就不转了。

大模型连崩原因猜想，谷歌躺赢流量激增6成

GPT归位，人们的工作终于又恢复了秩序。

未来科技 2024年6月5日
ChatGPT宕机8小时，谷歌Gemini搜索量激增60%

ChatGPT一天宕机两次

谷歌Gemini搜索量激增近60%

ChatGPT在全球拥有约1.8亿活跃用户，已成为部分人群工作流程的关键部分。

过去24小时内提交的关于OpenAI宕机的问题报告

图片来源：Downdetector

ChatGPT系统崩溃后，有网友在社交媒体X上发帖警告道：“ChatGPT最近发生的2.5小时全球中断，为我们所有依赖AI工具来支持业务的人敲响了警钟。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时大崩溃，AI集体罢工让全网都慌了

接着OpenAI也在官网更新了恢复服务公告，表示“我们经历了一次重大故障，影响了所有ChatGPT用户的所有计划。Generator调查显示，在ChatGPT首次故障后的四小时内，谷歌AI聊天机器人Gemini搜索量激增60%，达到327058次。

而且研究团队表示，“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关，显示出用户把Gemini视为ChatGPT的直接替代选项。

未来科技 2024年6月5日
深度对话苹果iPad团队：玻璃的传承与演变

iPad最为原始的外观专利

没错，这就是iPad最初被设想的样子：全面屏，圆角矩形，纤薄，就像一片掌心里的玻璃。

2010年发布的初代iPad

好在乔布斯的遗志，并未被iPad团队遗忘。

初代iPad宣传片画面

乔布斯赞同这一想法，于是快速将资源投入平板电脑项目，意欲打造一款与众不同的「上网本」，这就是iPad早年的产品定义。

iPad进化的底色

苹果发布会留下过很多「名场面」，初代iPad发布会的末尾就是一例。

未来科技 2024年6月5日
底层逻辑未通，影视业的AI革命正在褪色…

GPT、Sora均为革命性产品，引发了舆论风暴，但它在上个月发布的“多模态语音对谈”Sky语音，却由于声音太像电影明星斯嘉丽·约翰逊，被正主强烈警告，被迫下架。

华尔街日报也在唱衰，认为“AI工具创新步伐正在放缓，实用性有限，运行成本过高”：

首先，互联网上已经没有更多额外的数据供人工智能模型收集、训练。

03、

如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向，那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

但分歧点正在于此，电影公司希望通过使用AI技术来降低成本，但又不希望自己的内容被AI公司所窃取。

未来科技 2024年6月5日
KAN会引起大模型的范式转变吗？

“先变后加”代替“先加后变”的设计，使得KAN的每一个连接都相当于一个“小型网络”，能实现更强的表达能力。

KAN的主要贡献在于，在当前深度学习的背景下重新审视K氏表示定理，将上述创新网络泛化到任意宽度和深度，并以科学发现为目标进行了一系列实验，展示了其作为“AI+科学”基础模型的潜在作用。

KAN与MLP的对照表：

KAN使神经元之间的非线性转变更加细粒度和多样化。

未来科技 2024年6月5日
这个国家，也开始发芯片补贴了

//mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
[4]中国安防协会：欧盟批准430亿欧元芯片补贴计划：2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
[6]潮电穿戴：印度半导体投资大跃进，一锤砸下1090亿，政府补贴一半.2024.3.5https。

未来科技 2024年6月5日
大模型的电力经济学：中国AI需要多少电力？

这些报告研究对象（数字中心、智能数据中心、加密货币等）、研究市场（全球、中国与美国等）、研究周期（多数截至2030年）各不相同，但基本逻辑大同小异：先根据芯片等硬件的算力与功率，计算出数据中心的用电量，再根据算力增长的预期、芯片能效提升的预期，以及数据中心能效（PUE）提升的预期，来推测未来一段时间内智能数据中心的用电量增长情况。

未来科技 2024年6月5日
你正和20万人一起接受AI面试

原本客户还担心候选人能否接受AI面试这件事，但在2020年以后，候选人进行AI面试的过程已经是完全自动化的，包括面试过程中AI面试官回答候选人的问题，AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

以近屿智能与客户合作的校验周期至少3年来看，方小雷认为AI应用不太可能一下子爆发，包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

未来科技 2024年6月4日

希望Sora别走GPT-4的老路

相关推荐