近日,人工智能研究公司OpenAI发布首个文生视频模型“Sora”。
根据OpenAI官网介绍,使用Sora可以用文字指令生成长达1分钟的高清视频。视频可以具有多个角色、特定类型的运动、精确主题和背景细节等复杂场景。
此次文生视频模型Sora足够震撼。业内人士认为,从长远角度来看,Sora将给广告业、电影预告片、短视频行业带来巨大的颠覆。
从OpenAI官网更新的48个视频demo来看,Sora不仅能够准确呈现细节,还能生成具有丰富情感的角色。
据OpenAI介绍,Sora能够生成具有多个角色、特定类型的运动以及主题和背景的准确细节的复杂场景。该模型不仅了解用户提出的要求,还了解这些东西在物理世界中的存在方式。
这意味着,如果说GPT能够通过人类的语言来理解世界,那么Sora则能通过视频、图片等多模态数据来理解世界。
根据OpenAI的技术报告,Sora的强大得益于大量的数据、灵活的编码、优质的标注和Transformer+diffusion的架构。由于使用Transformer架构,Sora具有较强的扩展性。
业内人士分析称,此前这类模型对视频的处理往往会分解为时间域和空间域,用处理时间域的模型处理时间域,比如RNN、自回归模型等。但是,此次OpenAI直接把整个视频看做一个整体,一次性输入到diffusion模型中,让模型一次性生成出整个视频的每个细节。
影视行业或迎巨变
据了解,在OpenAI的Sora之前,谷歌曾在去年12月发布了一个全新的视频生成模型VideoPoet,能够执行包括文本到视频、图像到视频、视频风格化等操作。而此前一夜爆红的文生视频软件Pika也掀起了AI视频应用的热潮。
对于此次的Sora问世,360集团创始人、董事长周鸿祎表示,这意味着AGI实现将从10年缩短至1年。具备文生视频功能的视频类生成式AI,能够有效降低创作者的创作门槛。
国海证券在研报中指出,根据《/AI生成内容产业展望报告》,视频生成将成为近期跨模态生成领域的中高潜力场景,其背后逻辑是不同技术带来的主流内容形式的变化。
英伟达高级科学家Jim Fan认为,2022年是影像之年,2023是声波之年,而2024是视频之年。
大“网红”马斯克也对OpenAI发布的新模型发表了评价。针对推特网友转发的Sora演示视频,配文声称“gg Pixar”,马斯克在推文下方留言表示,“gg humans”。
另有一名网友谈及OpenAI的新模型,并将话题引向影视行业,“电影行业肯定会对这种技术做出严厉反应,希望法规不会失控”、“与大多数类型AI创作不同,生成式艺术不会抑制人类的精神”。
马斯克针对该推文也做出回应,“由人工智能增强的人类,将会在未来几年之内创作出最杰出的作品”。
能否带来颠覆性影响?
从OpenAI官网公布的视频实例来看,Sora能够精准呈现视频细节。
比如,某个Prompt的提示词是美丽、白雪皑皑的东京、城市熙熙攘攘。镜头穿过城市街道,跟随几个人享受美丽的雪天,在附近的摊位上购物。
在Sora生成的视频里,镜头从俯视白雪覆盖的东京,慢慢推进到两个行人手牵手在街道上行走,街旁的樱花树和商铺的画面均得以呈现。
有业内人士表示,这对电影、动漫、小说、游戏等行业具有深远影响。不过也有视频剪辑从业人员泼冷水,“大规模应用后能否催生更多好作品尚不清楚,但制造视频垃圾的速度一定会呈现指数级增长”。
某互联网从业人员表示,Sora确实很牛,但如果认为三年后就没人拍视频了,认为抖音Tiktok很快会被颠覆,那还是为时过早。
如果想借助Sora将视频行业变成“人纯粹消费机器工业化内容”的局面,这恐怕没戏。如果借助新技术,让人与人之间产生新的连接,激发新的创作产能,这是有戏的。同时,需要尊重行业规律,通过技术迭代生态,而不是直接把技术丢给用户。