Sora带来的四点启发

2024年2月19日 08:19 • 未来科技

今天可以看到，每次OpenAI的新东西出来，都会有人出来“维权”原创，从Q*到今天Sora背后的patch，推特上一名支持开源的学者说到：今天已经没有任何一条学术规范没有被OpenAI无视过。Anthropic拿到亚马逊的最重要一笔融资后，发现OpenAI给ChatGPT做了第一次大更新，上线了语音和图像功能，以及这一次还没ready的Sora硬抢谷歌Gemini的头条，Altman掌控下的OpenAI在议程设置上几乎登峰造极。

Sora的发布是一件大事，大到开始出现人传人的“出来见上帝”现象，而到底为何大却无人关心。观察各种讨论后还是觉得有些重要的东西没有说透，把很多信息和思考串起来总结成了四条“启发”，提前剧透，以下这里没有见上帝部分。

一、视觉数据能训练出更强的泛化能力？

ChatGPT标志着语言模型完成了“涌现”拥有了泛化能力。之后我一直很好奇不同模态的训练数据混合的效果，以及谁才是泛化能力诞生过程里决定性的那一个。

在去年前半年，我遇到每个做图像或视频生成模型的人都会问他一个问题：语言模型模块在图像或视频模型里到底有多关键？后来Dalle3似乎回答了这个问题，它的能力突破被广泛认为来自GPT提供的语言模型板块的强大能力。

去年底我的这个保留问题变成了：如果用了正确的方法，只用图像或者视频数据训练出来的模型，泛化能力会是怎样？

这个好奇来自两个判断，一个是视频数据是“全互联网的文字数据都被用完了”之后的下一个增量；另一个，是视频数据被广泛认为信息密度不如文字因此它与智慧的关系也不如文字，但我认为它包含的是另一种抽象维度的信息，比如时空关系和物理规律等，这些都因为数据“非格式化”而未被“开发”，但它潜力巨大。

在我有限的翻阅论文的经验里，有一篇关于多模态领域重要的模型VLMO的论文里，曾提到一个有意思的实验结论：当你完全拿一个在视觉数据上训练好的模型，可以直接对文本数据建模，甚至不需要微调就可以有很强的文本生成能力。但反过来用语言训练在视觉上生成，则差很多。后来去年MJ6V的一个重要功能提升也是文字生成，它用扩散模型的思路带来了语言能力，这都让我更加好奇。

而这一次Sora某种程度上就是在回答这个问题：它把视频数据统一了，然后用大语言模型的方法理解视频，最后产生了对物理世界的“涌现”，也就是泛化能力。这种能力是语言模型无法得到的。

这是很重要的一个信息。这可能不只是对理解AI有帮助，对理解我们作为人的一些智能也有帮助。

另外再提一个很有意思的细节，Sora这个模型的名字取自一个日语单词，Sora在日语是天空的意思。而这个词在日语里有时候会用作动词，意思是“用心记，而不用看任何写下来的材料”，变化出来的词比如“Soranjiru”，そらんじる的意思就是“remember by heart”。

这不就是Sora的能力。

二、现在OpenAI只剩下一条路线：Scaling Law

从Sora可以确定的信息来看，它的成功靠的是在所有人认为已经证明不可能的情况下，用数据精确处理后的大规模预训练硬生生带来了涌现——熟悉么，对，就是ChatGPT的又一次重演。

而这也是OpenAI的Scaling Law的又一次成功。而过去很长一段时间很多人开始质疑Scaling Law。比如在过去几个月跟业界一线从业者交流中，大家几乎默认GPT-4就是一个MoE（专家模型，由一群不同模型组成的大模型），而这被解读为单一模型能力撞墙，暗含着OpenAI坚持的Scaling Law的破产。但现在看，可能并非如此。在Sora的技术报告里有一句很有意思的话：

Our largest model， Sora， is capable of generating a minute of high fidelity video. Our results suggest that scaling video generation models is a promising path towards building general purpose simulators of the physical world.

“最大模型”，这句话有些故意含糊，是OpenAI最大的模型？比GPT-5还大？还是这个系列最大的模型？最大的大又指的是什么大？

总之，大力出奇迹仍在继续。

OpenAI的Scaling Law原本是它的研究中得出的一个学术结论，它来自Ilya和Karpathy等OpenAI的顶尖科学家们，但它正在快速变成一种路线，充满Altman意志的路线，变成这家公司的核心战略。Altman和科学家们的关系也呈现一种智术师与统治者的关系，思想体系诞生于前者，但最终被后者按照个人意志改造。

不知所踪的Ilya和刚刚离职的Karpathy，作为OpenAI曾经最有代表性的科学家都强调过Scale的重要，但前者很快开始警惕无限扩张过程里的失控危险，于是开始了超级对齐项目，而这个项目在OpenAI拿不到足够算力资源也被认为是宫斗爆发的导火索之一。Karpathy则是从科研角度想弄清楚Scale和算法的关系，提出“Algorithmic progress was necessity， now bonus”。而这句话带来的一统天下的前景，显然在“野心家”眼里会超过一切。

所以，今天如果把Scaling Law视作这家公司的唯一路线，Altman最近的很多动作也就更好理解：

在竞争上，7万亿美元的传言，就是比别人更早Scale到一个临界点，并且让其他人没卡可以用来Scale，让自己的规模冲到极致从而让别人无路可走。

在研究上，不再给学术界的研究足够的credit，也不认为有必要给。前者聚拢来的资源远超提出一些研究方法的学界，于是任何人的研究，都能变成他的成果——学术界造出来的，OpenAI全吞掉。

今天可以看到，每次OpenAI的新东西出来，都会有人出来“维权”原创，从Q*到今天Sora背后的patch，推特上一名支持开源的学者说到：今天已经没有任何一条学术规范没有被OpenAI无视过。

而且这些都是Altman的“哲学”之一。几天前我刷到奥特曼的一条推特：

you have a right to your actions，

but never to your actions’ fruits.

当时还在想这是什么意思，紧接着Sora来了，Karpathy走了。我们也明白了。

Ilya和Karpathy两个在坚持闭源的决心上远没有Altman坚定，对开源一直比较暧昧的人，最终成了这一切的注脚。

这一切是不是也让你感到很熟悉？Scaling Law正在被Altman演化成OpenAI版的moving fast and break everything 。也许这也是今天逼出了一个最强扎克伯格的原因。这也再次说明Altman和扎克伯格可能才是同一类人。

三、这只是我们和AGI的第一次亲密接触，一切仍在中间态

这几天人们拿各种文生视频产品和Sora对比，发现它全面碾压，而非各有所长。这其实反而更说明它是视觉模型本身的ChatGPT时刻，第一次证明这条路线可行，并让人们看到未来雏形。

不过，Sora在生成视频的意义之外，还在于语言模型突破后又迎来视频和物理世界虚拟生成的突破，所以更大的意义是向着AGI前进的一个里程碑。

GPT-4出现后，微软当初那篇全面评测的论文，取名“通用人工智能的火花”，它的团队原本起的标题叫做“与通用人工智能的第一次接触”。而从迈向更通用的智能的意义来看，Sora更适合这个标题。

它预示着新拼图会继续不断出现，也意味着一切都还没到“彻底变天”，反而今天的一切都只是中间态。

Sora对Dalle3的冲击已经很容易想到，而被Sora强行抢了头条的谷歌Gemini不仅明确用了MoE，而且第一次达到100万上下文长度——这已经不是对语言模型的突破，当你可以有100万上下文，你可以放进更多模态的数据，所以这样看它是和Sora有直接竞争关系的。为什么要选在Gemini 1.5后几小时急着用一个“PPT”发布Sora，可能也更好理解了。OpenAI比谁都明白，有了上下文长度就有了一切，不管你叫什么模态的模型。

这一切都指向今天还被认为是最强大的GPT——它也只是个中间态。一切都还有机会。

四、不必妄自菲薄

说实话，从OpenAI去年宫斗闹剧到今天的Sora发布，围绕它们的刷屏让我非常羡慕，多希望有我们自己的企业和产品和明星人物也能获得如此高度讨论。

其实从宫斗的处理，到今天Sora发布，OpenAI的每一次重要的动作和发布，都配合着一场场精巧设计的叙事和campaign，它的设置议题的能力，节奏控制，公众引导熟练自如。哪怕你只想喊两句“中美差距拉大”吃一吃情绪馒头，也至少该知道这一切。

OpenAI是在GPT-4已经训练出来后，才决定发布基于GPT-3.5的ChatGPT，Altman在去了国会听证并高声呼吁要减速AI的发展、政府多多监管后，转头几天就按下按钮发布了ChatGPT的移动端App。Anthropic拿到亚马逊的最重要一笔融资后，发现OpenAI给ChatGPT做了第一次大更新，上线了语音和图像功能，以及这一次还没ready的Sora硬抢谷歌Gemini的头条，Altman掌控下的OpenAI在议程设置上几乎登峰造极。

此外，OpenAI的每个人几乎都是一个品牌，都是一个推特上的“AI界马斯克”。一次发布，团队就多几个明星人物，成为以后媒体们选题的天然来源。

而且这种同样的模式，已经越来越明显在硅谷AI创业公司蔓延开来，比如号称要干掉谷歌的Perplexity的印度CEO，比如从传统浏览器变成“要再造一个互联网那么大的平台”的Arc浏览器。而这背后与AI行业发展急需的资源、人才、注意力、市场竞争等直接挂钩。

中国的同行们似乎已失去了这个能力。努力追赶是必需的，但作为一个天天和一线创业者打交道的人，我开始感觉我们对自己严苛到妄自菲薄的事实也在起着反作用。

我们不缺同样带来极佳体验的AI模型和产品，也不缺技术社区影响力极佳的个体和作品，但却没有在我们自己的讨论里形成该有的关注。也许所有人该放开一些包袱了。

OpenAI不是transformer模型发明者，Stable Diffusion不是diffusion模型发明者，Mistral不是MoE发明者，其实如果对标，它们本质都可以理解是一个个ASML，所以“我们为什么没有诞生OpenAI”是不是并不等于“我们为什么没从头发明某某技术”？对原创技术的理解和定义是不是在我们妄自菲薄的过程里被扩大化了，是不是哪怕一家像ASML这样的“只做沙子的搬运工”的公司，今天诞生在中国也躲不过先被骂套壳的命运？

有时候，问题提错了可能一切就都错了。

本文来自微信公众号：硅基立场（ID：gh_1b4c629a6dbd），作者：王兆洋

声明：该内容为作者独立观点，不代表新零售资讯观点或立场，文章为网友投稿上传，版权归原作者所有，未经允许不得转载。新零售资讯站仅提供信息存储服务，如发现文章、图片等侵权行为，侵权责任由作者本人承担。如对本稿件有异议或投诉，请联系：wuchangxu@youzan.com

Like (0)

深度科技公司如何筹集资金？

Previous 2024年2月19日

四年累亏74亿、300加盟商退出，KK集团四闯IPO

Next 2024年2月19日

水温80度：AI行业真假繁荣的临界点

我们从来没拥有过这么成功的AI主导的产品。

（这种分析统计并不那么准，但大致数量级是差不多的）

这两个产品碰巧可以用来比较有两个原因：

一个是它们在本质上是一种东西，只不过一个更通用，一个更垂直。

蓝海的海峡

未来成功的AI产品是什么样，大致形态已经比较清楚了，从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时“罢工”，全网打工人都慌了

美西时间午夜12点开始，陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载，忽然无法正常工作了。

因为发现AI用久了，导致现在“离了ChatGPT，大脑根本无法运转”。”

等等，又不是只有一个聊天机器人，难道地球离了ChatGPT就不转了。

大模型连崩原因猜想，谷歌躺赢流量激增6成

GPT归位，人们的工作终于又恢复了秩序。

未来科技 2024年6月5日
ChatGPT宕机8小时，谷歌Gemini搜索量激增60%

ChatGPT一天宕机两次

谷歌Gemini搜索量激增近60%

ChatGPT在全球拥有约1.8亿活跃用户，已成为部分人群工作流程的关键部分。

过去24小时内提交的关于OpenAI宕机的问题报告

图片来源：Downdetector

ChatGPT系统崩溃后，有网友在社交媒体X上发帖警告道：“ChatGPT最近发生的2.5小时全球中断，为我们所有依赖AI工具来支持业务的人敲响了警钟。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时大崩溃，AI集体罢工让全网都慌了

接着OpenAI也在官网更新了恢复服务公告，表示“我们经历了一次重大故障，影响了所有ChatGPT用户的所有计划。Generator调查显示，在ChatGPT首次故障后的四小时内，谷歌AI聊天机器人Gemini搜索量激增60%，达到327058次。

而且研究团队表示，“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关，显示出用户把Gemini视为ChatGPT的直接替代选项。

未来科技 2024年6月5日
深度对话苹果iPad团队：玻璃的传承与演变

iPad最为原始的外观专利

没错，这就是iPad最初被设想的样子：全面屏，圆角矩形，纤薄，就像一片掌心里的玻璃。

2010年发布的初代iPad

好在乔布斯的遗志，并未被iPad团队遗忘。

初代iPad宣传片画面

乔布斯赞同这一想法，于是快速将资源投入平板电脑项目，意欲打造一款与众不同的「上网本」，这就是iPad早年的产品定义。

iPad进化的底色

苹果发布会留下过很多「名场面」，初代iPad发布会的末尾就是一例。

未来科技 2024年6月5日
底层逻辑未通，影视业的AI革命正在褪色…

GPT、Sora均为革命性产品，引发了舆论风暴，但它在上个月发布的“多模态语音对谈”Sky语音，却由于声音太像电影明星斯嘉丽·约翰逊，被正主强烈警告，被迫下架。

华尔街日报也在唱衰，认为“AI工具创新步伐正在放缓，实用性有限，运行成本过高”：

首先，互联网上已经没有更多额外的数据供人工智能模型收集、训练。

03、

如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向，那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

但分歧点正在于此，电影公司希望通过使用AI技术来降低成本，但又不希望自己的内容被AI公司所窃取。

未来科技 2024年6月5日
KAN会引起大模型的范式转变吗？

“先变后加”代替“先加后变”的设计，使得KAN的每一个连接都相当于一个“小型网络”，能实现更强的表达能力。

KAN的主要贡献在于，在当前深度学习的背景下重新审视K氏表示定理，将上述创新网络泛化到任意宽度和深度，并以科学发现为目标进行了一系列实验，展示了其作为“AI+科学”基础模型的潜在作用。

KAN与MLP的对照表：

KAN使神经元之间的非线性转变更加细粒度和多样化。

未来科技 2024年6月5日
这个国家，也开始发芯片补贴了

//mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
[4]中国安防协会：欧盟批准430亿欧元芯片补贴计划：2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
[6]潮电穿戴：印度半导体投资大跃进，一锤砸下1090亿，政府补贴一半.2024.3.5https。

未来科技 2024年6月5日
大模型的电力经济学：中国AI需要多少电力？

这些报告研究对象（数字中心、智能数据中心、加密货币等）、研究市场（全球、中国与美国等）、研究周期（多数截至2030年）各不相同，但基本逻辑大同小异：先根据芯片等硬件的算力与功率，计算出数据中心的用电量，再根据算力增长的预期、芯片能效提升的预期，以及数据中心能效（PUE）提升的预期，来推测未来一段时间内智能数据中心的用电量增长情况。

未来科技 2024年6月5日
你正和20万人一起接受AI面试

原本客户还担心候选人能否接受AI面试这件事，但在2020年以后，候选人进行AI面试的过程已经是完全自动化的，包括面试过程中AI面试官回答候选人的问题，AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

以近屿智能与客户合作的校验周期至少3年来看，方小雷认为AI应用不太可能一下子爆发，包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

未来科技 2024年6月4日

Sora带来的四点启发

相关推荐