几天前,好莱坞导演泰勒·派瑞在见证了OpenAI最新推出的Sora(人工智能文生视频大模型)后,搁置了8亿美元的工作室扩建计划。泰勒认为,有了Sora,将极大简化影视创作流程,对编辑、剪辑、道具、布景等职位产生重大影响,未来会有一大批人失业。
而在几个月前,梦工厂创始人杰弗瑞·卡森伯格表示,人工智能将在3年内削减90%的动画电影工作岗位。
显然,Sora的出现,已经让影视和游戏行业感受到了危机。如果一句话就能生成视频,视频剪辑师似乎轻易就会被取代。
华泰证券研报显示,2023年实际诞生的文生视频大模型达到数十个,全球用户数量超过百万级别,但目前多数视频模型仍处于产品早期阶段。2024年各大公司加快了文生视频模型的研发步伐。此外,中信证券测算,中国国内文生视频应用在短视频领域2025年潜在市场空间中值达80亿元。
1月2日,Midjourney宣布将在未来几个月加快训练文生视频模型,1月23日,谷歌推出文生视频模型Lumiere。在国内,字节跳动和腾讯也分别公布了视频模型MagicVideo V2与VideoCrafter2。除了大公司推出的产品,市场上已公开的大多数模型出自初创公司和小型技术开发团队,比如Runaway、Pika等,且目前已呈现较为可观的完成效果和商业模式。预计随着科技大厂产品的发布,后续相关产品生态将持续繁荣。
在与多位影视、游戏、短视频及短剧行业的资深人士深入交流之后,财经E法发现,在科技浪潮面前,“打不过就加入”,用好先进的AI工具为产业赋能,或许是更务实的策略。
一、影视:被颠覆只是时间问题
Sora的出现已让影视从业者感到了寒意,被颠覆似乎只是时间问题。
在Sora生成的视频中,一位穿着时髦的女性走在东京街头,路面的积水映射着远处霓虹都市;而在另一段动物视频中,几只猛犸象从雪原深处奔来,毛发与白雪在风中飘动,视频主角的面部表情和肢体动作都自然、生动。
文生视频的美好前景也被逐一展现:可媲美人类的场景设计、多场景运镜,以及对物理世界精确的理解。此外,Sora生成的视频时长也远超同类产品,据媒体测算,在相同的提示词下,Sora可生成近1分钟的视频,Pika仅能生成3秒的视频,Gen-2video可以生成4秒的视频。
近日,360集团创始人、董事长周鸿祎在2024亚布力中国企业家论坛第二十四届年会上分析,Sora的突破在于,它实现了机器对这个世界的感知、观察和交互的能力。也就是说,真正地给人工智能补上了眼睛,但这个眼睛不是工作在感知层面,而是工作在认知层面,能通过观察世界,来了解很多过去用文字无法表达的东西,比如雪花的特性、枕头的松软程度。
具体而言,相较此前的文生视频产品,Sora有着几大突出特点:
1. 符合现实世界的物理规律;
2. 能够生成一分钟的高清视频,并且支持生成不同时长、长宽比和不同分辨率的视频与图像;
3. 支持文字+图片生成视频,且可以基于文本提示,从而改变原视频的风格化和视频中的元素;
4. Sora可以生成带有动态摄像机运动的视频。随着摄像机的移动和旋转,人和场景元素在三维空间中一致移动;
5. Sora可以实现不同视频的自然衔接、过渡,且支持拓展视频。
根据OpenAI公布的Sora技术文档,Sora结合了Diffusion model(扩散模型)和Transformer两种技术架构。Diffusion model是一种生成模型,用于图像的生成。而Transformer是一种深度学习模型,可以学习文本之间的依赖关系,也能够处理图片和视频的任务,如图像分类、视频理解。在此基础上,Sora还增添了对绘画意图标签的理解以及空间与时间的补丁包,增强对物理世界的理解。
一些影视行业资深人士却仍在细节上存有疑问。青年导演吕凯源的作品曾入围第17届FIRST平面电影展主竞赛单元,并获得北京国际电影节最具新血潜力项目奖,他认为,Sora生成的视频质量确实不错。但这些视频更像《文明6》这类游戏的开头,而不像是电影或者广告的片段。
吕凯源告诉财经E法,在Sora之前发布的很多文生视频产品并不符合物理世界规则,而Sora生成的内容已经大部分符合物理世界的规则了。从这一意义上来说,Sora是通用人工智能的进步。“预期Sora可能会对影视行业颠覆,其实是人类对Sora的期望——希望它能理解得更深,但Sora未必能够达到人类对于艺术、时尚和文化的理解。”吕凯源说。
比如,在去年,ChatGPT爆火后,吕凯源曾经尝试用ChatGPT写过一些故事。他认为,AI确实能提供某些层面的启发、帮助,但目前ChatGPT还无法写出一个完整的剧本。吕凯源分析,GPT是文字的逻辑,Sora是视频的逻辑,这是人类的两种语言,文字语言与视觉语言是非常不一样的。“用文字来生成视频,意味着将一种文字的媒介转译成视频的媒介,这个过程是更复杂的,需要调用人类的感官、思考,这对文生视频而言是一个亟须克服的障碍” 吕凯源表示。
吕凯源认为,目前Sora生成的画面精度与真实的画面仍有差距。未来引入摄像机参数后或许能够生成高质量的视频,但他担忧会产生“恐怖谷效应”——画面越像,人类越会觉得不真实。且影视创作极具创造性和随机性,AI无法复制。比如,后期剪辑的思路其实是人类出于视觉上的完形心理,创造了剪辑的各种规则和玩法。
在做一些时尚片的时候,他经常会看一些国外的新时尚片,发现影视业的同行是在不断创造新剪辑语法的,且需要经过反复的试验才能生成一个好片子。镜头的长与短,用什么样的效果,这些细节Sora可能没有办法做到。
“例如,我随便输入一个指令‘一个人在一个房间里’,导演、编剧对于这个画面想象都是不一样的。演员的表情也是非常即兴、自我发挥的,他们有很多经验可以调动。但AI只能根据它对世界的理解。比如,笑这个表情,AI可能有1000种选项,它不一定会选择最对的,而是会选择最合适的。对于演员而言,可能他们选择了调用自己心里那个最出其不意的笑,反而获得了巨大的成功。”吕凯源说。
OpenAI官方也指出,Sora可能难以准确模拟复杂场景的物理原理,可能无法理解因果关系的具体实例。例如,一个人咬了一口饼干,但生成画面中的饼干上可能会没有咬痕。此外,Sora还可能会混淆提示的空间细节,例如混淆左右;并且Sora可能难以精确描述随着时间推移发生的事件,例如画面遵循特定的相机轨迹。
一位CG特效师告诉财经E法,看到Sora的生成效果时感受到了一些危机感,自己需要几天时间才能完成的设计,AI可能只需要几秒钟就能完成。但Sora的创新性以及是否能够满足对特效的细节要求还有待验证。
此外,吕凯源认为,并不是技术越好越能生产出好的作品,好作品是多因素叠加的成果。他以最近爆火的《热辣滚烫》举例,电影的叙事与内容不见得多么出挑,真正让其火出圈、获得高票房的原因是营销端的成功。好莱坞一些大IP的成功在于他们的故事是创新的、缜密的,再加上快餐式或鸡汤式的营销,最终实现成功。
面对当下的不足,资深互联网科技行业分析师陈泽敏告诉财经E法,Sora的突破在于已经给出了可以被推演的技术增长路径,而不是需要通过质变来改善的技术。假以时日,Sora生成的视频有望达到更高的质量和精细程度。
华策影视董事长赵依芳公开表示,将全面拥抱AIGC和数字化,以科技创新谋新路,以更大的能量继续引领行业。
二、游戏:更易受到冲击
另一个可能被Sora冲击的行业是游戏行业。OpenAI官方发布的一段演示视频还原了视频游戏《我的世界》。研究人员使用包含“我的世界”的提示词还原了一个与《我的世界》一致的高保真游戏片段。
多位受访者告诉财经E法,相较影视行业,游戏业更易受到Sora的冲击。
一名游戏设计师告诉财经E法,一旦Sora具备了稳定且成熟的产出能力,CG、过场动画等美术内容将极有可能被取代。她表示,游戏的过场动画以及宣发中的CG建模制作时长一般较短,Sora如果能够实现成熟且具有一致性的内容输出,这一部分的制作或许能够完全由AI完成。
陈泽敏也认为,目前Sora一分钟的作品有些细节可能不真实,但其实已经可以满足一些内容生产需要。他以游戏行业举例:“目前,优质内容的用户占比在全球都不高。大部分人消费的都是一些不用那么精细的内容。比如,一些中腰部的游戏仍然有很多用户在玩。”
但一家头部游戏厂商的产品经理则认为,同质化、低质量的内容难以开拓市场,游戏应当在AIGC的辅助下找到新的打法。可以预见的是,Sora的出现能够提升游戏的体验。他举例,用户也许可以利用Sora在游戏中实现自己创建场景,过得更加极致的沉浸式体验。此外,游戏的开发者也可以利用类似的工具减少重复性劳动。个人开发者可以利用AI工具以相对较低的成本开发游戏,甚至有可能与游戏厂商竞争。
当然,前述行业人士也强调,一款游戏的成功不仅仅在于美术和设计,玩法、题材、运营、宣发、商业模式等都是重要的因素。消费者对于好游戏的标准也不断变化,Sora的出现并不意味着游戏从业者集体失业。
一些游戏厂商对Sora的出现做了积极回应。
巨人网络在互动平台回复投资者称,公司关注到Sora在视频生成领域取得的突破性进展,巨人网络作为最早完成大语言模型备案的游戏公司之一,同样在积极布局多模态大模型领域,聚焦游戏垂直类创作场景。
游戏公司掌趣科技在互动平台回复, Sora等新技术的涌现,将有助于提升游戏研发效率,推进游戏创作的创意实现,提升游戏体验,促进游戏类型的多元化发展,更好地助力游戏行业向前发展。公司在“AI游戏创作平台”、LayaAir游戏引擎方面的布局,是游戏工具、平台与AI技术结合的积极探索,也是后续AI相关新技术(包括文生视频等)有效的应用场景与合作伙伴,同时相关3D素材、3D引擎技术的积累也或将有助于行业内相关技术的训练或迭代。
实丰文化回复投资者称,公司一直密切关注行业最新发展态势及用户需求,不断提升生产创作效率,AI技术与游戏的进一步融合将为游戏业务的开展降本增效,公司预期会使用“Sora”等视频AI工具进行游戏片头以及视频投放素材的生成,可以降低研发及制作成本。
三、短视频/短剧:后期制作可能被取代
大势所趋,影视、游戏以及短视频领域的资深人士已经开始积极拥抱Sora带来的新浪潮。
华泰证券研报预计,Sora能明显降低影视业的制作门槛及成本,且可以极大程度丰富影视作品的创造性及风格。Sora的出现将重塑影视行业,预计拥有核心导演或创意人才,及IP资源的公司更受益。
中信证券研报认为,Sora模型出色的语义理解、视频编辑和扩展能力为创作者提供了灵活和广泛的创意空间,有望加速文生视频应用在各行业的渗透率。短视频的时长普遍在60秒及以下,Sora的内容生成能力充分适配短视频时长及应用场景,可以大幅提高创作效率并降低创作门槛。
吕凯源认为,如果Sora能够发展到一个非常厉害的程度,能够让影视从业者直接上手操作,或许可以成为工作流的一部分。在后期工种中,最容易被取代的可能是CG特效,它能够节省很多的时间和空间,替人类把身边的物理世界复刻出来。
在短视频和短剧领域,Sora的替代效应可能更大。陈泽敏告诉财经E法,Sora的出现能够提升大量中腰部以下的短视频创作者的产能与产效。Sora可以将每个角色的样貌、动作甚至口癖导入模型,提升产能。“危机是一定出现了,短视频行业的一部分内容创作者可能会产生产能压力。”陈泽敏说。
具体而言,吕凯源认为,抖音的很多优秀创作者的视频画面质量并不好,但重要的是他们的视频是有内容和创意的,并不容易被取代。但短视频的后期制作以及大量的投流号的内容制作,则完全有可能被Sora取代。
陈泽敏总结,Sora大幅降低了行业试错成本,提高了生产效率,使得行业有更多的创意冒出来。他建议,如果能够利用这一工具大量生产中文视频内容,再鼓励推出1~2个类似的平台,中文AI视频可能会出现百花齐放的状态。
一位不愿具名的短剧从业者也告诉财经E法,目前来看Sora的制作效果远超出预期,未来或许能够应用于短剧的后期制作,提高产出效率。
“AI是一个生产力强于过去传统模式的工具。但本身用不用得好,一定要看用它的人怎么样,或者说这个工具被打磨、被训练得怎么样。”陈泽敏说。
本文来自微信公众号:财经E法 (ID:CAIJINGELAW),作者:樊朔,编辑:郭丽琴