被吹爆的Sora ，为何恐怕是过誉了？

2024年3月21日 20:07 • 未来科技

在这一点上，Sora和Stable。如在下面这个视频里，在不同角度的镜头切换中，人物和背景的细节一致性好的出奇，仿佛Sora是先在内部构建了人物和场景的3D模型，再对其进行“模拟拍摄”而产生的画面。如今看看Sora一键生成的高清片段，那真是一口老血喷出来。Vision。在这种情况下，现实反而是会被拒绝的存在，因为那里有太多的不确定性和变化，更不符合人的期望。

无需赘述，2024开年大事件就是Sora，几乎所有人都见识了Sora带来的震撼：极为细腻，真实渲染，情节连续，可持续60秒的视频，如同这不可能存在的冬日樱花一样，模糊了真实和虚幻的边界。

仿佛回到ChatGPT问世的那一天，OpenAI又一次震撼了世界。

在碾过一整条赛道AI初创公司的同时，连带着助力NVIDA拿下美股史上最大涨幅（以市值计算）。看着这一片欣欣向荣的狂欢，仿佛这次真的要被西方先进生产力按在地上摩擦了。所以真的有这么可怕吗？

从技术上看，Sora恐怕是过誉了

经过数日的挖坟，业界逐渐了解到Sora是基于纽约大学助理教授谢赛宁和学生Bill Peebles （如今任职于OpenAI）共同发表的Diffusion Transformer（DiT）的思路来开发的。

Diffusion是常见的文生图算法，通过给已标注的图片加噪点直至“扩散”成完全的白噪音状态，那么将这一操作倒过来就实现了按标注从白噪音中生成与文本对应的图片。在这一点上，Sora和Stable Diffusion， Midjourney以及Open AI自家的DALLE工具没有太多差别。

Sora的独到之处，是用GPT中常用的Transformer替换此前常用的UNet模型，来生成下一帧图片。还有，为了把在ChatGPT上玩得炉火纯青的Transformer应用到视频上，OpenAI采用了独特的时空补片（Space Patch）方法（对应大语言模型中的Token）。

通过把视频理解为三维空间（二维图像+一维时间）里堆叠的立方体，将其拆解成隐空间里一个个按时间排序的patch，再套用GPT的Transformer模型进行概率预测分析，最后将其解码回来即可获取后续帧的排列方式。

在生成过程里，不断重复这一步骤1440次，就得到了连续流畅，时空一致性极高的60秒视频。

无论用了多少工程上的trick，究其本质，Sora所做的仍然是开局一张图，后续全靠猜，不断输出下一帧像素的最大可能性组合。只不过OpenAI调教下的Transformer大力出奇迹，效果之好令人震惊。

但OpenAI并没有发明全新的框架，所以仅仅过了两周，Stable Diffusion 3就正式发布了，用了和Sora同款的DiT框架，在进度上咬得紧紧的。

可见，只要显卡管够，算法之下众生平等。这里并不存在去年ChatGPT刚问世时的技术代差。

Sora还不具备理解“因果律”的能力

OpenAI宣称Sora是“作为世界模拟的视频生成模型”，听起来神乎其神的。如在下面这个视频里，在不同角度的镜头切换中，人物和背景的细节一致性好的出奇，仿佛Sora是先在内部构建了人物和场景的3D模型，再对其进行“模拟拍摄”而产生的画面。

其实，这是人类自欺欺人的幻觉。

很多人都发现Sora生成视频中有些不合理之处，如这个“考古挖掘”的视频中，椅子完全不受刚性和重力影响，凭空出现，随风飘扬和变形。任何一个人都能看出这里的诡异之处。

师从丘成桐的顾险峰教授深刻讨论了这些bug背后的真相：Sora其实完全不理解真实世界的物理因果律，它只是寻找到了几何上足够平滑的点云分布。而且找到的这个分布基本是局部的最优解，缺乏对长程物理关系本质及表观的体现。

比如在下面这个视频中，老太太做了吹蜡烛的动作，但蜡烛却没有被吹灭。这是因为吹熄蜡烛是三维世界里以看不见的空气为中介“隔空”发生的物理作用。而在二维画面中，蜡烛和人物分属于隐空间中两个无关的patch，但没有任何像素来自看不见的空气，所以Sora无法在蜡烛和人物的画面间建立起因果关系，也就预测不出也画不出“吹熄”这个效果。

这就回到我们一开始所说的，Sora的本质是预测下一帧像素的最大可能性组合。但这种基于归纳的相关性统计方法，无法真正理解具有解析解的物理演绎逻辑。

语言或许可以表征人类能表达出的所有的知识和社会建构，所以大语言模型在文本生成上如鱼得水，分分钟秒杀人类做题家。

但真实的世界是物理的，具有比文本大得多的信息量，无论是图像还是文本描述都仅仅表征了其很小的侧面。

Sora能从视频里总结出牛顿万有引力那凝练的公式吗？有可能是做不到的。

再深入一层，你会发现Sora生成的视频都具有时空的连续性。所有的画面都是围绕同一元素和风格产生的连续画面（即便有分镜，背景也是一致的），没有突变点。这也很好理解，Sora的本质是预测下一帧像素的最大可能性组合，它先天就无法创造“不连续”的东西，尽管不连续才是物理世界的常态。

人对混沌和临界点具有先天的认知，Sora似乎还不能领悟这一点。Sora所呈现的，仅仅是在提示词限定下最具合理性的世界拟像，而非世界本身。

正如图灵奖得主杨立昆（Yann LeCun）指出，Sora并不真正具有AGI（通用人工智能）所需的“世界模型”，它也无法去创造新的世界。

当人类开始沉迷幻境，拒绝现实

当然，对于影视业而言，Sora已经产生了足够的冲击和恐慌。皮克斯这样的影视后期巨头，当年为了展现动画中的毛发纹理，需要“肝”几个月才能搞定物理建模和光追渲染的种种细节。如今看看Sora一键生成的高清片段，那真是一口老血喷出来。

上次ChatGPT已经让编剧工会集体罢工了，很想知道好莱坞的美工和后期程序员们会不会再次揭竿而起。

我毫不怀疑Sora会对未来的工作和生活产生巨大的影响，尤其是当它与元宇宙和AR结合起来。尽管Sora并不具有创造世界的真正智能，但其对世界的无限拟像，已经足够把大部分人玩得团团转了。

比起抖音上美颜开到最大的小姐姐，给每个人定制的Sora视频 + Apple Vision Pro的装备，可以带来好一万倍的梦幻体验，是真正的造梦机器。和影像有关的一切产业都将被重塑，未来能享受的娱乐生活将变得无比激动，像美剧《西部世界》里那样疯狂。

但Sora只是照着人的期望值绘出了最可能的那个“梦境”，而真实世界往往不按照你觉得最合理的样子运行。Sora带来的既是一个美梦，也是一个陷阱。

如果戴上AR眼镜就可以获得Sora为你量身定制的故事，你还会出门旅行吗？毕竟Sora可以给你360度展现地球上从未存在的美景。进一步思考，如果每个人都能活在专属自己的影像空间里，而这一切的边际成本接近于零，那什么才是现实？在这种情况下，现实反而是会被拒绝的存在，因为那里有太多的不确定性和变化，更不符合人的期望。

Sora可能并没有我们想象的那么神奇和智慧，但人确实足够愚蠢。很快我们就能看到有人用Sora来对老年人进行视频诈骗了，而这仅仅是个开始。

但这并非Sora的错，而是人的错。在《哈利·波特》第一部中有一面厄里斯魔镜，站在镜子前的人会发现，自己的一切渴望都会在镜中展现并满足——但仅仅在镜中。

而世界上最幸福的人，在镜子里看见的就是自己的模样。

本文来自微信公众号：风声OPINION （ID：ifengopinion），作者：刘正（Simon Kucher 战略咨询顾问）

声明：该内容为作者独立观点，不代表新零售资讯观点或立场，文章为网友投稿上传，版权归原作者所有，未经允许不得转载。新零售资讯站仅提供信息存储服务，如发现文章、图片等侵权行为，侵权责任由作者本人承担。如对本稿件有异议或投诉，请联系：wuchangxu@youzan.com

Like (0)

现制茶饮4.0时代，得人才者，得天下

Previous 2024年3月21日

传奇大爷拿下“数学界诺贝尔奖”

Next 2024年3月21日

水温80度：AI行业真假繁荣的临界点

我们从来没拥有过这么成功的AI主导的产品。

（这种分析统计并不那么准，但大致数量级是差不多的）

这两个产品碰巧可以用来比较有两个原因：

一个是它们在本质上是一种东西，只不过一个更通用，一个更垂直。

蓝海的海峡

未来成功的AI产品是什么样，大致形态已经比较清楚了，从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时“罢工”，全网打工人都慌了

美西时间午夜12点开始，陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载，忽然无法正常工作了。

因为发现AI用久了，导致现在“离了ChatGPT，大脑根本无法运转”。”

等等，又不是只有一个聊天机器人，难道地球离了ChatGPT就不转了。

大模型连崩原因猜想，谷歌躺赢流量激增6成

GPT归位，人们的工作终于又恢复了秩序。

未来科技 2024年6月5日
ChatGPT宕机8小时，谷歌Gemini搜索量激增60%

ChatGPT一天宕机两次

谷歌Gemini搜索量激增近60%

ChatGPT在全球拥有约1.8亿活跃用户，已成为部分人群工作流程的关键部分。

过去24小时内提交的关于OpenAI宕机的问题报告

图片来源：Downdetector

ChatGPT系统崩溃后，有网友在社交媒体X上发帖警告道：“ChatGPT最近发生的2.5小时全球中断，为我们所有依赖AI工具来支持业务的人敲响了警钟。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时大崩溃，AI集体罢工让全网都慌了

接着OpenAI也在官网更新了恢复服务公告，表示“我们经历了一次重大故障，影响了所有ChatGPT用户的所有计划。Generator调查显示，在ChatGPT首次故障后的四小时内，谷歌AI聊天机器人Gemini搜索量激增60%，达到327058次。

而且研究团队表示，“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关，显示出用户把Gemini视为ChatGPT的直接替代选项。

未来科技 2024年6月5日
深度对话苹果iPad团队：玻璃的传承与演变

iPad最为原始的外观专利

没错，这就是iPad最初被设想的样子：全面屏，圆角矩形，纤薄，就像一片掌心里的玻璃。

2010年发布的初代iPad

好在乔布斯的遗志，并未被iPad团队遗忘。

初代iPad宣传片画面

乔布斯赞同这一想法，于是快速将资源投入平板电脑项目，意欲打造一款与众不同的「上网本」，这就是iPad早年的产品定义。

iPad进化的底色

苹果发布会留下过很多「名场面」，初代iPad发布会的末尾就是一例。

未来科技 2024年6月5日
底层逻辑未通，影视业的AI革命正在褪色…

GPT、Sora均为革命性产品，引发了舆论风暴，但它在上个月发布的“多模态语音对谈”Sky语音，却由于声音太像电影明星斯嘉丽·约翰逊，被正主强烈警告，被迫下架。

华尔街日报也在唱衰，认为“AI工具创新步伐正在放缓，实用性有限，运行成本过高”：

首先，互联网上已经没有更多额外的数据供人工智能模型收集、训练。

03、

如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向，那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

但分歧点正在于此，电影公司希望通过使用AI技术来降低成本，但又不希望自己的内容被AI公司所窃取。

未来科技 2024年6月5日
KAN会引起大模型的范式转变吗？

“先变后加”代替“先加后变”的设计，使得KAN的每一个连接都相当于一个“小型网络”，能实现更强的表达能力。

KAN的主要贡献在于，在当前深度学习的背景下重新审视K氏表示定理，将上述创新网络泛化到任意宽度和深度，并以科学发现为目标进行了一系列实验，展示了其作为“AI+科学”基础模型的潜在作用。

KAN与MLP的对照表：

KAN使神经元之间的非线性转变更加细粒度和多样化。

未来科技 2024年6月5日
这个国家，也开始发芯片补贴了

//mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
[4]中国安防协会：欧盟批准430亿欧元芯片补贴计划：2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
[6]潮电穿戴：印度半导体投资大跃进，一锤砸下1090亿，政府补贴一半.2024.3.5https。

未来科技 2024年6月5日
大模型的电力经济学：中国AI需要多少电力？

这些报告研究对象（数字中心、智能数据中心、加密货币等）、研究市场（全球、中国与美国等）、研究周期（多数截至2030年）各不相同，但基本逻辑大同小异：先根据芯片等硬件的算力与功率，计算出数据中心的用电量，再根据算力增长的预期、芯片能效提升的预期，以及数据中心能效（PUE）提升的预期，来推测未来一段时间内智能数据中心的用电量增长情况。

未来科技 2024年6月5日
你正和20万人一起接受AI面试

原本客户还担心候选人能否接受AI面试这件事，但在2020年以后，候选人进行AI面试的过程已经是完全自动化的，包括面试过程中AI面试官回答候选人的问题，AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

以近屿智能与客户合作的校验周期至少3年来看，方小雷认为AI应用不太可能一下子爆发，包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

未来科技 2024年6月4日

被吹爆的Sora ，为何恐怕是过誉了？

相关推荐

Share To :