Sora问世第7天：技术冰山下还有这5个关键问题

2024年2月23日 22:06 • 未来科技

对于Sora，OpenAI延续了ChatGPT的技术路线，将Transformer模型迁移到了文生视频的Diffusion。

图片来源：李桢提供

补丁包的功能在于，大模型在计算画面的同时，基于Transformer的整个文本的理解方式，把空间下发生的事情的补丁先计算出来，然后推演下一秒钟的情节，随即生成时空领域内的场景数据集，进而选择生成视频所需要的、最合乎物理世界的数据帧，相较于现在的ControlNet（用于控制AI。

Sora的问世引发了科技狂欢，也带来了新的争议。

日前，Meta首席AI科学家Yann LeCun杨立昆公开质疑Sora ：“Sora的生成式技术路线注定失败，用Sora构建世界模型不可行。”

在杨立昆看来，生成类算法适用于离散的文本，但处理高维连续感官输入中的“预测不确定性”则非常棘手，OpenAI将Sora定义为“世界模拟器”有失准确。

实际上，在2月16日Sora发布的同一天，模型领域还有两款重磅产品推出。一是Meta发布的能够以人类的理解方式看世界”的视频联合嵌入预测架构V-JEPA，二是谷歌发布的支持100万tokens上下文的大模型Gemini 1.5 Pro。

撞档之下，不论是语言模型Gemini 1.5 Pro ，还是与Sora同属视频生成模型的V-JEPA ，都被掩盖在了Sora的信息流中。

值得一提的是，2月22日凌晨，谷歌毫无预兆地发布了开源模型Gemma，这是继其2月9日宣布Gemini Ultra免费使用、2月16日推出Gemini 1.5 Pro后，短短12天之内的第三个大动作。

图片来源：GPT-4制作

一位业内人士告诉时代周报：“谷歌试图通过Gemma挑战Meta的Llama 2，并向用Sora抢了自己风头的OpenAI宣战，颇有‘打不过就开放’的味道。”

新生事物向来要接受各方面的评判和挑战，抛开技术与展现形式的升级，Sora显然还具备科技框架以外的意义。

“麦高芬”（MacGuffin）是电影界的一则术语，指在电影中用于推展剧情的物件、人物或目标，其详细的背景和发展并不重要，重要的是它对电影剧情的发展起着关键作用。它是电影中的一个激励因素，旨在推动情节的发展，而Sora或许就扮演着这样的角色。

针对一款产生轰动效应的科技产品，抛开技术底座谈行业意义是本末倒置的，摒弃宏观影响谈竞争力是狭隘的。就Sora为商业科技领域带来的诸多思考，时代周报邀请到四位业内人士，探讨文生视频领域技术冰山下的问题。

一、如何看待杨立昆对Sora的质疑？

李桢：每一个模型的出现都具备自身的逻辑推导，都有可能成功，没有注定的事情。杨立昆对于Sora提出质疑，是因为双方所认同的技术路线存在差异。

结合ChatGPT的发展史看Sora，有种历史重演的感觉。彼时，大语言模型行业经历补全类和对话类后，OpenAI利用Transformer（自然语言传送）模型打开了新局面，人们发现，ChatGPT竟然突破了对上下文语义的理解，而不是词语之间的理解。更令人惊讶的是，这种理解不同于人类的理解方式，它的模式是建立在算法机制上的，通过概率的计算对文本内涵进行揣测和理解。

文生视频领域所依据的两个绘画模型主要是Diffusion Model（扩散模型）和GAN（对抗学习的深度生成模型）。Diffusion Model指的是在有限材料下像学生一样去学习，不断扩散材料；GAN的角色更像是一位老师，通过“批改”的方式将整个模型的稳定度、画面的精确度调整至更高要求。目前所有的文生视频就是从这样的文生图像的连续帧得来的。

对于Sora，OpenAI延续了ChatGPT的技术路线，将Transformer模型迁移到了文生视频的Diffusion Model中，让图片更容易被理解。在此基础上，OpenAI还做了两项迭代升级。一是在Transformer的架构上增添了对绘画意图标签的理解，二是增添了Space&Time patches（空间与时间的补丁包）。

图片来源：李桢提供

补丁包的功能在于，大模型在计算画面的同时，基于Transformer的整个文本的理解方式，把空间下发生的事情的补丁先计算出来，然后推演下一秒钟的情节，随即生成时空领域内的场景数据集，进而选择生成视频所需要的、最合乎物理世界的数据帧，相较于现在的ControlNet（用于控制AI 图像生成的插件）对Diffusion Model 的视频处理技术，其能将画面做得更加稳定和逼真。

严格来说，Sora之于OpenAI原有的技术体系没有进行再创造，它是一种组合创新的逻辑——把原来的模型迁移到视觉模型上，又将原有所谓时空的概念打造成了补丁包的方式，不断地去嵌入和更新。

但从某种程度上讲，杨立昆的观点是没错的。Sora所生成的所有内容都是基于概率计算出来的，事件发生的根本逻辑与物理世界确实不同。

Edward: Sora本质上不算是AI理解人类的突破，但其高质量跨越生成形态方面的突破可谓将行业推向新纪元。

其底层技术主要遵循对目的图片拆解和拼接的逻辑。类似最新发布的通用机器人Mobile Aloha。斯坦福团队曾对外表示该机器人可以完全模拟人类解决很多家务工作，但其实该机器人背后需要人为操纵两个遥控杆。

当下，AI的上限依旧是人类。人类本身对于物理世界仍处在持续探索的过程中，按照Sora的技术逻辑，暂时无法训练出比人类更智能的AI。

但Sora的进步之处在于，它将视频每一帧的图片赋予了GPT可以理解的文本，这代表着未来每一帧的图片里的元素都可以被文本描述，很大程度上提高了用户针对视频的搜索效率。

二、如何理解文生视频领域的中外差距？

李桢：在技术端，我认为目前国际上能与OpenAI相匹敌的企业只有Meta。因为Meta的开源社区逻辑有着巨大的增长潜力，就像当年的苹果与安卓。

不同于Sora的技术策略，Meta推出的V-JEPA意在创造架构，随后将Space&Time patches进行迁移实现预测。这种路径虽然不具备Transformer所坚持的、由极大数据量支撑全局测算的条件，但架构一旦被输入足够的数据量，其实也能达到与Sora比肩的效果。

在市场端，我们目前还无法去评估Sora的具体价值。大家普遍沉浸在Sora带来的美好幻想中，却忽略了一个水面之下的现实问题。

Sora目前没有公开报价，而对于走数据集路线的Sora来讲，势必需要强大的算力去支撑。当下所有人都在猜测它的算力，如果其所需算力的成本比一条短视频的制作成本高很多，它的可持续性有多强？它的效率有多高？如何定价相对合理？

目前来看，Sora没有给报价的原因可能有两点。一是OpenAI无法评估如何定价才会受到市场广泛认可并投入使用；二是基于对手的猛烈攻势，在全面规划未落地的情况下，率先发布内测版本，可能是为了抢夺市场的资金与注意力。

Emma：国产文生视频大模型预计将面临与LLM类似的问题，与国外差距主要体现在算法、算力和算据三方面。

算力方面，英伟达凭借技术优势占据AI芯片领域主导地位，中美科技竞赛背景下，国内厂商暂不具备优势。

算法上，自监督学习机制、模型并行和数据并行优化等核心技术等方面，国外研究团队仍保持一定的领先，不过中国企业在模型架构优化、知识融合、多模态学习等方面也取得了一系列突破。

算据方面，GPT-4拥有100万亿个参数，基本达到人类大脑的规模，而百度的文心一言，华为的盘古大模型参数量在千亿规模的级别，与GPT-3相近。即便达到十万亿级别的阿里巴巴M6大模型，其参数规模仍与GPT-4相差一个数量级。

三、在文生视频领域，中国企业该怎样定位？

李桢：这个问题涉及到了世界产业分工，国情与文化的不同，造就了中外对基础学科与意识形态存在差异——欧美擅长打造天马行空的概念，将科技视作食粮；国内则相对更加注重落地，以应用侧的运用见长。

电商行业中，阿里的AI大模型十分强大，其推出的Animate Anyone和Outfit Anyone开源框架，能将静态图像中的角色或人物进行动态化的展示。基于阿里海量的服装数据，用户只需上传人物照片和服装照片，就可以实时看到虚拟人的换装效果，并可通过动画中的人形动作了解衣服的摆动状况与材质。

让虚拟人按照自然的方式运动也是非常领先的技术，但和OpenAI、Meta的AI产品显然处于不同维度。条条大路通罗马，国内很多企业都和阿里一样拥有自己的底牌，只是用法不同罢了。

Edward：师夷长技以制夷，中国完全可以拥有中国特色的大模型道路。当技术等级处于下风之时，我们可以更加注重应用端。从这个角度来看，我反而会认为国内的文生视频企业会更具话语权，国内拥有庞大的创作者群体，拥有短视频爆发的土壤，相应地具备了更多视频类语料库。如果AI可以理解视频指令，每天不间断通过刷视频充实语料库，那么所呈现的算力是惊人的。

此外，国内企业可以通过文生视频打造企业生态，快速实现垂直领域的落地。拿谷歌举例，虽然技术无法与OpneAI相提并论，但谷歌围绕自身生态推出的AI产品不断反哺生态，应用前景往往更加清晰。当行业步入中后期，企业之间的技术差距通常不会太大，手握优质生态的企业便容易脱颖而出。

四、从LLM的发展路径来看，国内文生视频可借鉴哪些经验？

Yuca：行业初期，企业需根据自身实力提前做好考量与布局规划，根据细分的要求培养竞争力。

比如，大模型企业需具备一定的数据、算力、资金实力，内容创作企业则需具备IP打造能力和创意能力，分发型企业需在合规、准确和效率上提出更高要求。

未来视频模型层迭代速度会很快，大部分人会聚焦在基于视频生成模型的应用场景，产品型和创意型公司会更受关注。

李桢：按照时间线纵向对比，我认为文生视频领域的企业，尤其是国内的企业可以更加开放。但往往国内市场竞争更加激烈，同时中外文化母体不同，对价值的理解程度也不同。

作为全球第一的CRM（企业智能数据平台）公司，Salesforce中国水土不服，原因在于中外对数据资产管理的理解方式不同。大家对“什么东西该开源”“什么东西该收费”的定义无法达成一致，所以只能从长期视角对企业提出建议，无法苛刻地要求企业短期内做出改变。

五、透过预制菜与厨师的矛盾，怎样看待文生视频与人类的关系？

李桢：今年AIGC生成视频很火，但鲜有公司真正将AIGC文生视频落地。作为为公司提升效率的一个重要手段，直到今年，AIGC赛道才出现一些进展，且进展的主力军局限在文本生成以及文本的自动化工具，因为这部分足够稳定，可以形成生产力，可以实际提升企业工作效率。

对文生视频来讲，要“让子弹飞一会”，当我们真正研究透彻提示词，才可真正调动AIGC。否则就算Sora的报价合理，且出图准确，我们依然会存在将大笔金钱投入在提示词不精准的算力消耗上。

Emma：这种舆论的方向跑在了我们对AI大模型产生足够的认知之前。对于普通人来讲，通过优质提示词使用大模型提升工作效率仍存在门槛，当我们的认知还不足以支撑对工具的使用时，探讨“视频大模型是否能取代人类工作”还为时尚早。

Edward：文生视频会对现有工作岗位进行升级，或衍生出更多的新岗位，最终应用到各种丰富的场景中解决民生问题，如农业、教育等，我认为应当把人类的未来交给相应的技术。‍‍‍

本文来自微信公众号：时代周报（ID：timeweekly），嘉宾：李桢（北京信息化局专家库信息化专家，工信部人工智能内容创作师认证主讲人，商业认知研究院创始院长，西南大学、成都科技大学创业导师，对外经贸大学创新学科讲师）、Edward（英国就业协会理事，人工智能行业协会会员，无束AIGC内容分享平台创始人）、Emma（香港理工大学中英企业传讯硕士，无束AIGC内容分享平台联合创始人）、Yuca（远识资本董事，科技媒体Z Potentials创始人），作者：申谨睿，编辑：史成超，满满

声明：该内容为作者独立观点，不代表新零售资讯观点或立场，文章为网友投稿上传，版权归原作者所有，未经允许不得转载。新零售资讯站仅提供信息存储服务，如发现文章、图片等侵权行为，侵权责任由作者本人承担。如对本稿件有异议或投诉，请联系：wuchangxu@youzan.com

Like (0)

错的不只是李一舟

Previous 2024年2月23日

茶百道更新招股书：已在韩国开出海外首店

Next 2024年2月23日

水温80度：AI行业真假繁荣的临界点

我们从来没拥有过这么成功的AI主导的产品。

（这种分析统计并不那么准，但大致数量级是差不多的）

这两个产品碰巧可以用来比较有两个原因：

一个是它们在本质上是一种东西，只不过一个更通用，一个更垂直。

蓝海的海峡

未来成功的AI产品是什么样，大致形态已经比较清楚了，从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时“罢工”，全网打工人都慌了

美西时间午夜12点开始，陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载，忽然无法正常工作了。

因为发现AI用久了，导致现在“离了ChatGPT，大脑根本无法运转”。”

等等，又不是只有一个聊天机器人，难道地球离了ChatGPT就不转了。

大模型连崩原因猜想，谷歌躺赢流量激增6成

GPT归位，人们的工作终于又恢复了秩序。

未来科技 2024年6月5日
ChatGPT宕机8小时，谷歌Gemini搜索量激增60%

ChatGPT一天宕机两次

谷歌Gemini搜索量激增近60%

ChatGPT在全球拥有约1.8亿活跃用户，已成为部分人群工作流程的关键部分。

过去24小时内提交的关于OpenAI宕机的问题报告

图片来源：Downdetector

ChatGPT系统崩溃后，有网友在社交媒体X上发帖警告道：“ChatGPT最近发生的2.5小时全球中断，为我们所有依赖AI工具来支持业务的人敲响了警钟。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时大崩溃，AI集体罢工让全网都慌了

接着OpenAI也在官网更新了恢复服务公告，表示“我们经历了一次重大故障，影响了所有ChatGPT用户的所有计划。Generator调查显示，在ChatGPT首次故障后的四小时内，谷歌AI聊天机器人Gemini搜索量激增60%，达到327058次。

而且研究团队表示，“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关，显示出用户把Gemini视为ChatGPT的直接替代选项。

未来科技 2024年6月5日
深度对话苹果iPad团队：玻璃的传承与演变

iPad最为原始的外观专利

没错，这就是iPad最初被设想的样子：全面屏，圆角矩形，纤薄，就像一片掌心里的玻璃。

2010年发布的初代iPad

好在乔布斯的遗志，并未被iPad团队遗忘。

初代iPad宣传片画面

乔布斯赞同这一想法，于是快速将资源投入平板电脑项目，意欲打造一款与众不同的「上网本」，这就是iPad早年的产品定义。

iPad进化的底色

苹果发布会留下过很多「名场面」，初代iPad发布会的末尾就是一例。

未来科技 2024年6月5日
底层逻辑未通，影视业的AI革命正在褪色…

GPT、Sora均为革命性产品，引发了舆论风暴，但它在上个月发布的“多模态语音对谈”Sky语音，却由于声音太像电影明星斯嘉丽·约翰逊，被正主强烈警告，被迫下架。

华尔街日报也在唱衰，认为“AI工具创新步伐正在放缓，实用性有限，运行成本过高”：

首先，互联网上已经没有更多额外的数据供人工智能模型收集、训练。

03、

如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向，那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

但分歧点正在于此，电影公司希望通过使用AI技术来降低成本，但又不希望自己的内容被AI公司所窃取。

未来科技 2024年6月5日
KAN会引起大模型的范式转变吗？

“先变后加”代替“先加后变”的设计，使得KAN的每一个连接都相当于一个“小型网络”，能实现更强的表达能力。

KAN的主要贡献在于，在当前深度学习的背景下重新审视K氏表示定理，将上述创新网络泛化到任意宽度和深度，并以科学发现为目标进行了一系列实验，展示了其作为“AI+科学”基础模型的潜在作用。

KAN与MLP的对照表：

KAN使神经元之间的非线性转变更加细粒度和多样化。

未来科技 2024年6月5日
这个国家，也开始发芯片补贴了

//mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
[4]中国安防协会：欧盟批准430亿欧元芯片补贴计划：2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
[6]潮电穿戴：印度半导体投资大跃进，一锤砸下1090亿，政府补贴一半.2024.3.5https。

未来科技 2024年6月5日
大模型的电力经济学：中国AI需要多少电力？

这些报告研究对象（数字中心、智能数据中心、加密货币等）、研究市场（全球、中国与美国等）、研究周期（多数截至2030年）各不相同，但基本逻辑大同小异：先根据芯片等硬件的算力与功率，计算出数据中心的用电量，再根据算力增长的预期、芯片能效提升的预期，以及数据中心能效（PUE）提升的预期，来推测未来一段时间内智能数据中心的用电量增长情况。

未来科技 2024年6月5日
你正和20万人一起接受AI面试

原本客户还担心候选人能否接受AI面试这件事，但在2020年以后，候选人进行AI面试的过程已经是完全自动化的，包括面试过程中AI面试官回答候选人的问题，AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

以近屿智能与客户合作的校验周期至少3年来看，方小雷认为AI应用不太可能一下子爆发，包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

未来科技 2024年6月4日

Sora问世第7天：技术冰山下还有这5个关键问题

相关推荐