出品 | 虎嗅科技组
作者 | 杜钰君
编辑 | 苗正卿
头图 | 视觉中国
2月16日,OpenAI发布了首个文生视频模型Sora。用户可以通过输入自然语言提示词,生成长达1分钟的视频。Sora 也因文生视频的强大功能而被称为“史诗级大模型”。
然而,出于公司发展战略、商业化等的多方考量,OpenAI选择了闭源Sora,甚至遮蔽了模型训练的技术性细节。当OpenAI变成了ClosedAI,一众大模型技术和创业团队开启了复原Sora的计划。
“世界模拟器”的激励之下,佼佼者众。继2024年3月18日的Open Sora 1.0之后,Colossal AI再次推出了开源Sora中的尖子生——Open Sora 1.1,在开源模型的艰难复现之路上迈了一大步。
Open Sora 1.1是开源视频生成模型Open Sora 1.0的第二代,该模型支持文本到视频、图像到视频、视频到视频等多模态的功能实现,且能够进行自主视频拼接的同时保证视频内容的3D一致性。此外,Open Sora 1.1的动态分辨率也同样出彩,无需预处理便可以直接处理任意分辨率的视频。
与初代相比,该版本在功能、训练效率和整体灵活性方面均有了显著提升。最显著的改进之一是能够生成长达21秒的视频,与Open-Sora 1.0 的 2 秒限制相比提升了十倍多,时间范围的大幅扩张为更广泛的创意短视频的落地打开了方便之门。
此外,新版本还大幅增加了模型大小和数据集。与 Open-Sora 1.0版本的40万个训练视频相比,Open-Sora 1.1的训练数据集直接提升了25倍,此外,该模型本身还拥有 7 亿个参数,再搭配训练过程中对原有的STDiT架构进行了关键性改进,包括将时序注意力中的正弦波位置编码替换为更高效的旋转位置编码,以及QK归一化技术等的引入,保障了Open Sora 1.1半精度训练的稳定性。
Open Sora 1.1 对 CausalVideoVAE 架构进行了优化,采用高效多分辨率训练的Bucket系统,该系统将视频根据分辨率、帧数和宽高比分组到Bucket中,确保具有相似属性的视频能够在同一批次内进行训练。这不仅极大地提升了在有限GPU资源上的处理效率,还通过keep_prob和batch_size等功能的引入,有效控制了计算成本,并在训练期间实现了GPU负载的平衡。
模型架构和训练之外,Open-Sora 1.1 在很大程度上得益于精细的数据预处理流程。利用场景检测算法首先对原始视频片段进行采样切割,从美学、光流和文本存在等方面对切割后的原始视频进行评分,在基于视觉吸引力、运动模式、语义一致性等指标对原始视频进行综合评估后,为入围的片段生成字幕,通过视频内容的文本描述进一步丰富模型的训练数据。在此基础上进行新一轮的字幕和匹配分数计算,筛选出字幕和视觉效果之间相关性强的训练视频,最终根据匹配分数过滤视频片段,舍弃字幕与视频匹配度较弱的片段。
诸多buff加持下的Open-Sora 1.1成为视频处理与生成的“斜杠青年”,能够同时处理分辨率、帧长度和宽高比等各种视频属性。
但复现终究不是取代。在高仿真度还原Sora大量功能的同时,Open-Sora 1.1也存在处理复杂内容或大量token时场景还原度不高、视频可能会出现噪声、缺乏流畅度和时间一致性等问题。