OpenAI刷屏的Sora模型,是如何做到这么强的?

首先,在文生视频领域,比较成熟的模型思路有循环网络(RNN)、生成对抗网络(GAN)和扩散模型(Diffusion。给出了范例,他们做了一个截取尺寸视频训练和原始尺寸视频训练的模型对比:

左侧为截取尺寸视频训练后模型生成的视频。右侧为原始尺寸视频训练后模型生成的视频

另外,为了文生视频能够更好地理解用户的意图,达到更好的生成效果,OpenAI。

昨天凌晨,OpenAI 发布了新的文生视频大模型,名为“Sora”。

Sora 模型可以生成最长 60 秒的高清视频,生成的画面可以很好地展现场景中的光影关系、各个物体间的物理遮挡、碰撞关系,并且镜头丝滑可变。

相信大家已经在朋友圈看到了非常多的文章在展示 OpenAI 的官方演示视频,由于生成内容的安全问题 Sora 还未开放测试,我们无法获取更多差异化信息,所以知危编辑部在此不再重复展示 Sora 模型的效果。

下面,我们想重点探讨为何 Sora 模型的效果看起来远超市面上我们见过的其他文生视频模型,他们都做了什么?

以防您没在朋友圈看到,我们仍放一个示例视频。

示例视频的生成提示词为:一位时尚的女人走在东京的街道上,街道上到处都是温暖的发光霓虹灯和动画城市标志。她身穿黑色皮夹克,红色长裙,黑色靴子,背着一个黑色钱包。她戴着墨镜,涂着红色口红。她自信而随意地走路。街道潮湿而反光,营造出五颜六色的灯光的镜面效果。许多行人四处走动。

首先,在文生视频领域,比较成熟的模型思路有循环网络(RNN)、生成对抗网络(GAN)和扩散模型(Diffusion models),而本次OpenAI 推出的 Sora 则是一种扩散模型

虽然 GAN 模型之前一直很火,但图像和视频生成相关的领域,现在处于被扩散模型统治的阶段。

因为扩散模型是有非常卓越的优越性的,相较于 GAN,扩散模型的生成多样性和训练稳定性都要更好。而最重要的是,扩散模型在图片和视频生成上有更高的天花板,因为 GAN 模型从原理上来看本质上是机器对人的模仿,而扩散模型则更像是机器学会了“成为一个人”

这么说或许有些抽象,我们换一个不严谨但通俗好理解的例子:

GAN 模型像是一个勤奋的画家,但不太受控制,因为画家(生成器)一边不停对着先作(训练源)画画,然后另一边老师(判别器)也不停打分。就在大战无数个回合之后,画家和老师疯狂升级进步,最后直到画家画出逼真的画,但整个过程不太好控制,经常练着练着就走火入魔,输出一些谁也看不懂的玩意儿。同时,他的提升过程本质上是对先作的不断模仿,所以他还缺乏创造力,导致天花板也潜在会比较低。

而扩散模型,则是一个勤奋且聪明的画家,他并不是机械的仿作,而是在学习大量先作的时候,他学会了图像内涵与图像之间的关系,他大概知道了图像上的“美”应该是什么样,图像的某种“风格”应该是什么样,他更像是在思考,他是比 GAN 更有前途的画家。

也就是说,OpenAI 选择扩散模型这个范式来创造文生视频模型,在当下属于开了个好头,选择了一个有潜力的画家来培养。

那么,另一个疑问就出现了,由于大家都知道扩散模型的优越性,除了 OpenAI 以外,同样在做扩散模型的还有很多友商,为什么 OpenAI 的看起来更惊艳?

因为 OpenAI 有这样一个思维:我曾经在大语言模型上获得了非常好的效果、获得了如此巨大的成功,那我有没有可能参考这个经验获得一次新的成功呢?

答案是可以。

OpenAI 认为,之前在大语言模型上的成功,得益于 Token(可以翻译成令牌、标记、词元都可,翻译为词元会更好理解一些),Token 可以优雅地把代码、数学以及各种不同的自然语言进行统一进而方便规模巨大的训练。于是,他们创造了对应 Token 的“Patche”概念(块,如果 Token 翻译为词元理解的话,Patche 或许可以被我们翻译为“图块”)用于训练 Sora 这个视频模型。

实际上,在大语言模型中,Token 的应用之所以会如此成功,还得益于 Transformer 架构,他与 Token 是搭配着来的,所以 Sora 作为一个视频生成扩散模型,区别于主流视频生成扩散模型采用了 Transformer 架构(主流视频生成扩散模型较多采用 U-Net 架构。)

也就是说,OpenAI 赢在了经验与技术路线的选择上。

但是,Transformer 架构这个“成功密码”人尽皆知,在文字、图像生成上已经成为了主流,为什么别人没想着在视频生成上用,OpenAI 就用了呢?

这源自另外一个问题:Transformer 架构中全注意力机制的内存需求会随着输入序列长度而二次方增长,所以处理视频这样的高维信号时,计算成本会非常非常高

通俗点说,就是虽然用了 Transformer 效果会好,但所需的计算资源也是非常恐怖的,这么做不是很经济。

当然,OpenAI 虽然拿各种融资拿到手软,但也依然没那么财大气粗,所以他们并没有直接猛砸资源,而是想了另外一种方式来解决计算成本高昂的问题。

这里我们要先引入“latent”(潜)这一概念,它是一种“降维”或者说是“压缩”,意在用更少的信息去表达信息的本质。我们列举一个不恰当但好理解的例子,这就好像我们用一个三视图就能保存记录一个简单的立体物体的结构,而非一定要保存这个立体本身。

OpenAI 为此开发了一个视频压缩网络,把视频先降维到潜空间,然后再去拿这些压缩过的视频数据去生成 Patche,这样就能使输入的信息变少,有效减小 Transformer 架构带来的计算量压力。

如此一来,大部分问题就都解决了,OpenAI 成功地把文生视频模型套进了其在过去取得巨大成功的大语言模型的范式里,所以效果想不好都难。

除此之外,OpenAI 在训练上的路线选择也稍有不同。他们选择了“原始尺寸、时长” 训练,而非业内常用的“把视频截取成预设标准尺寸、时长”后再训练。

这样的训练给 Sora 带来了诸多好处:

①生成的视频能更好地自定义时长;

②生成的视频能够更好地自定义视频尺寸;

③视频会有更好的取景和构图;

前两点很好理解,第三点 OpenAI 给出了范例,他们做了一个截取尺寸视频训练和原始尺寸视频训练的模型对比:

左侧为截取尺寸视频训练后模型生成的视频 右侧为原始尺寸视频训练后模型生成的视频

另外,为了文生视频能够更好地理解用户的意图,达到更好的生成效果,OpenAI 也在 Sora 模型上加入了一些巧思。

首先,训练 Sora 这样的文生视频模型,需要大量含有文本说明的视频素材,所以 OpenAI 利用自家 DALL·E 3 的 re-captioning 功能,给训练用的视频素材都加上了高质量文本描述,他们表示这样可以提高输出视频的整体质量。

除了训练端,在输入端他们也动了脑筋,用户输入的提示词并非直接交给 Sora 进行生成的,OpenAI 利用了 GPT 的能力,在用户给 Sora 输入提示词的时候,GPT 会先将用户输入的提示词进行精准的详尽扩写,然后再将扩写后的提示词交给 Sora,这样能更好地让 Sora 遵循提示词来生成更精准的视频。

好了,到这里,我们对 Sora 模型为什么看起来更强的简要解析就结束了。

从整体来看,你会发现 Sora 模型的成功并非偶然,他能有如此惊艳的效果,全都得益于 OpenAI 过去的工作,包括 GPT、DALL·E 等,有些是直接调用,有些是借用了思路。

或许我们可以说,OpenAI 自己先成为了一个巨人,然后再站在自己这个巨人的肩膀上,成为了一个新的巨人。

而相对应的是,无论国内还是国外的其他竞争对手,或许会因为文生文、文生图上的技术差,在未来被甩得更远。

本文来自微信公众号:知危(ID:BusinessAlert),作者:二筒,编辑:大饼、江江

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
(0)
上一篇 2024年2月16日
下一篇 2024年2月17日

相关推荐

  • 数字人出海背后,隐藏哪些商业机密?

    某上市公司旗下数字人营销视频创作工具负责人Dour介绍,曾有几个客户向其反馈了极为惊人的数据:使用数字人,一个季度可以完成高达1700~2000小时的直播时长,相当于平均每天直播17个小时。

    在亿邦的调研中,一个常被各种数字人服务商所提及的宏伟设想,或许可以更加具象地展现这门方兴未艾的技术究竟有着多大的想象空间:

    数字人的远期定位,并不是抢“真人”的饭碗,而是在算力爆炸、AI永续迭代的背景下,重构整个电商领域的信息呈现方式。

    未来科技 7小时前
  • 迪士尼想用 AI 改造娱乐业,但它准备好了吗?

     
    乐园:迪士尼的技术试验场
     
    迪士尼乐园不仅是“世界上最快乐的地方”,也是迪士尼前沿技术的实验场。
     
    马克·谢弗曾在人民快运航空和大陆航空从事收入管理工作,他来到迪士尼后,领导一个由 250名员工组成的数据分析团队,对迪士尼乐园的各项业务进行动态定价,并推出了。
     
    2022年,迪士尼推出了人工智能工具。
     
    迪士尼的人工智能困境
     
    1928年,迪士尼推出了世界上首部声画同步动画片《汽船威利》。

    未来科技 8小时前
  • 这个世界变得更精彩,但好像也更无聊了

    那是一个下午,办公室的咖啡机坏了,我在楼下买了一杯厚乳拿铁,上楼后发现同事都出去吃午饭了,我一个人坐在窗边的工位上,升起的阳光正好覆盖在了我的电脑屏幕上,浏览器的文字都变得模糊起来,我眯起眼睛,试图看清屏幕上的字,依稀能看到我的代码编辑器,正在用。

    我是热爱并且积极拥抱这些最新最酷的技术的人之一,但我猛然想到,那些不那么乐意拥抱新技术的人,就一定要被淘汰,这也是让人挺不舒服的一件事。

    未来科技 8小时前
  • 工业AI大模型落地应用的最新实践,都在这里

    上述问题,也正是我们即将在“大鲸AI闭门会·制造专场”上深入探讨的焦点!
     
    6月20日,虎嗅智库将在苏州举办“2024大鲸AI闭门会·工业制造专场”,汇聚信通院、美的、隆基绿能、施耐德电气等权威机构、头部甲方企业、工业智能企业的创新者,独家完整呈现甲方头部完整AI应用落地案例,并将围绕、“智能生产与排程”、“质量分析与数字模拟”、“人机协作与智能制造”等话题,共同探寻AI大模型在工业智造领域的落地应用。

    未来科技 9小时前
  • 果然,美国限制AI出口立法的进程又进一步

    Review(ID:Internet-law-review),作者:互联网法律评论,题图来自:视觉中国

    当地时间2024年5月22日,美国众议院外交事务委员会以压倒性多数,通过了一项限制AI模型出口的法案。

    只是从功用上对“涵盖的人工智能系统”进行了一定的概括,不过,这样的“新定义”基本上涵盖了“任何人工智能系统、软件或硬件”,只要这些物项满足以下条件:

    侵蚀美国国家安全或外交政策的方式。

    未来科技 9小时前
  • 微软Build:GPT-4o重塑Windows,奥特曼剧透新模型

    本文来自微信公众号:APPSO (ID:appsolution),作者:超凡、王萌、崇宇,题图来自:微软Build 今天凌晨,微软带来了一系列重磅产品,一口气发布了50多项更新。 …

    未来科技 10小时前
  • 产业政策的迷失:日本AI败局启示

    本来,日本在神经网络和深度学习方面有很强的底蕴,但在全面为第五代计算机服务的背景下,全社会的资源都在向专家系统这一路径倾斜,甚至连福岛邦彦这样的大佬都很难申请到需要的经费。而当第五代计算机的梦想在二十世纪九十年代最终破裂后,日本干脆削减了对整个AI学科的资金扶持,这就导致了最优秀的人才根本不愿意进入这个领域。

    一旦有日本的AI企业率先从类似的领域发起突围,并真正实现了盈利,那么日本全社会对AI兴趣的低迷就会被扭转,人才也会陆续重新回到这个领域。

    未来科技 10小时前
  • AI已经擅长欺骗人类,其阴暗面令人震惊

    从娱乐至生活,AI欺骗在扩散

    诚然,游戏无疑是一个相对可控的环境,我们可能倾向于认为,这种AI欺骗行为的危害并不严重。

    而且,这种欺骗能力并非仅存在于模型规模较小、应用范围较窄的AI系统中,即便是大型的通用AI系统,比如GPT-4,在面对复杂的利弊权衡时,同样选择了欺骗作为一种解决方案。

    AI欺骗的系统性风险

    毋庸置疑,一旦放任不管,AI欺骗给整个社会带来的危害是系统性和深远的。

    未来科技 10小时前
  • 第一个iPhone刺客,可能要倒下了

    //www.cnet.com/tech/mobile/humane-maker-of-wearable-ai-pin-is-exploring-a-sale-report-says/
    https。//techcrunch.com/2024/05/22/humane-the-creator-of-the-700-ai-pin-is-reportedly-seeking-a-buyer/。

    未来科技 10小时前
  • 第一波收割完的AI创企要跑路了?6年来仅做了一款产品

    创办Humane之前,Chaudhri曾在苹果公司担任设计师长达20年,据报道于2017年被苹果公司解雇,Bongiorno在苹果公司工作了8年,担任iOS和macOS的软件工程总监,并于2016年离职。

    Humane与微软的合作主要是体现在其利用微软的云基础设施搭建技术平台,同时,Humane也将OpenAI的技术集成到其设备中。

    未来科技 10小时前