文生视频时代已到,百度、讯飞、字节谁能率先做出“国产Sora”?

也正是因为将视频转换成Patch表示,所以Sora模型并不像传统的视觉模型那样,需要被高宽比、分辨率、时间等因素限制,让整个模型的范化能力和通用性变得更强,还支持更多的Prompt类型,完成图生视频、视频扩展、多个视频之间连接等功能。
众所周知,在真正的视频拍摄中,多镜头场景的拍摄并不是件易事,不仅需要多个机位共同参与,还需要在后期进行复杂的剪辑,所以过去的AI视频大多都是单镜头出现,但Sora放出的文生视频很多都出现了多角度的镜头切换,并可以在不停的切换之间实现拍摄对象的一致性,这都是其他AI视频软件无法完成的。

AI的风,终于吹到了我们每个人的身边

继ChatGPT后,OpenAI又在文生视频的领域中扔下了一颗深水炸弹,引爆了海内外AI圈。

2月16日,OpenAI的文字生成视频模型——Sora首次面世。据介绍,Sora可以根据所输入的prompt,直接输出最高长达60秒的视频,并且包含高度细致的背景、复杂的多角度镜头,以及富有情感的多个角色。

在OpenAI创始人阿尔特曼的社交网站上,其也放出了Sora生成的视频,如下便是以“A bicycle race on ocean with different animals as athletes riding the bicycles with drone camera view”(一场在海洋上举行的自行车比赛,不同的动物作为运动员骑着自行车,通过无人机摄像机视角进行拍摄)为提示词生成的视频。

此外,用更具体的prompt也可以获得时长更久的视频,如下便是以“一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街道上。她穿着黑色皮夹克、红色长裙和黑色靴子,拎着黑色钱包。她戴着太阳镜,涂着红色口红。她走路自信又随意。街道潮湿且反光,在彩色灯光的照射下形成镜面效果。许多行人走来走去”为提示词生成的视频。

上述两个视频,如果不告诉你它们是由AI生成的,谁又能辨别出来呢?

那么,OpenAI的首款文生视频模型Sora是如何完成文生视频的?其与Runway Gen-2、Pika等AI视频工具相比,有着什么样的进步,又有哪些不足?Sora的出现,会让哪些行业出现翻天覆地的变化?对国内的AI企业,又有哪些启示呢?

01

Sora的底层逻辑,其实和大语言模型相同?

要深入探索Sora的多方面特征,我们首先需从其技术根基着手。换句话说,我们最先需要明白的是,Sora生成视频内容的背后,究竟是依托于怎么样的技术实现的?

在当今的人工智能领域,大模型的发展都离不开Transformer架构。这一架构的核心思想是利用海量数据进行学习,以便在特定的目标场景中实现泛化效果,即通过分析先前的内容来预测后续的内容。

这种方法在文本生成领域中表现出色,因为文本数据的结构和标准相对一致。然而,对于视频数据,情况就大不相同了。视频数据包含了图像内容、时间、颜色等多种维度的信息,如何将这些不同维度的因素有效结合,成为了构建AI视频模型的关键挑战

在Sora项目的推进过程中,OpenAI深入思考并参考了大型语言模型的成功之道,即通过互联网上的超大规模数据训练,以获得通用的处理能力,从而成功将代码、数字和各种自然语言进行了有效的统一处理。

而为了让视觉数据模型继承这样的好处,Sora也采用了与大语言模型相同的思路,即LLMs既然可以使用token标记,那么Sora与采用类似于视觉领域中的token不就可以解决问题了吗?

具体来看,Sora模型构建了Visual Encoder视频压缩网络,将视频转换到低维空间Latent Space,然后将Latent Space分解成Patch表示,将视频生成的任务转化成通过已知Patch预测接下来的Patches的任务,然后通过Decoder将Latent还原成人类可理解的高像素视频并拼接起来,最终生成目标视频。

也正是因为将视频转换成Patch表示,所以Sora模型并不像传统的视觉模型那样,需要被高宽比、分辨率、时间等因素限制,让整个模型的范化能力和通用性变得更强,还支持更多的Prompt类型,完成图生视频、视频扩展、多个视频之间连接等功能。

与先前的文本生成视频软件如Runway、Pika和Stable Video等“前辈”相比,Sora不仅在技术层面取得了突破性的进步,视频效果上更是实现了如代际碾压般的降维打击。

首先,最直接差距的便是视频长度的提升,社交平台上一位名为“Gabor Cselle”的博主将相同的prompt“美丽、白雪皑皑的东京熙熙攘攘,镜头穿过熙熙攘攘的城市街道,跟随几个人享受美丽的雪天,在附近的摊位购物,绚丽的樱花花瓣随着雪花随风飘扬”输入给Sora、Pika、Runway、Stable Video四个模型后,它们给出的结果是这样的。

可以看到,当前主流的AI视频生成软件Pika、Runway和Stable Video视频生成的时长普遍被限制在5秒内,在特定情况下,应用户要求,这些平台能扩展至16秒,这已是2024年以前AI生成视频领域公认的最长时间纪录。而Sora则突破常规,其独特的能力允许它生成长达一分钟的视频,这一时长无疑将其置于行业绝对的领先地位。

而在简单的时长增加外,Sora多镜头切换的能力,也让人十分惊叹。

众所周知,在真正的视频拍摄中,多镜头场景的拍摄并不是件易事,不仅需要多个机位共同参与,还需要在后期进行复杂的剪辑,所以过去的AI视频大多都是单镜头出现,但Sora放出的文生视频很多都出现了多角度的镜头切换,并可以在不停的切换之间实现拍摄对象的一致性,这都是其他AI视频软件无法完成的。

此外,Sora创造出的场景和角色,已经达到了以假乱真的地步,从各种细节上来看,都好像是真实拍摄的一般,譬如下图人物的瞳孔、睫毛等细节处理,都看不出任何的AI味道。

尽管Sora在文本生成视频的领域取得了显著的进展,它仍然只是文生视频革命的初步尝试。OpenAI在其技术文档中也坦诚,Sora存在不少局限性,例如,其无法准确地模拟许多涉及到交互的物理特性譬如玻璃破碎等,也会出现吃掉饼干一部分后饼干仍然完好无损的情况。

然而,尽管Sora距离完美还有漫长的道路,但它的问世已经在海外被广泛视作第四次科技革命的一个里程碑。这可以类比于第一次工业革命中火车上首次应用蒸汽机,那一刻人们意识到,原本需要数日骑马车完成的旅程,现在只需几小时即可抵达。

360公司的董事长周鸿祎对Sora的评价更是高度肯定,他表示,“Sora不仅仅是一次简单的尝试,它所展示的,是大模型在理解和模拟真实世界方面取得的新成就和突破”,“就像做梦一样”。 他甚至预言,Sora的出现可能会将通用人工智能(AGI)的实现时间从10年缩短至一到两年,这无疑是对Sora以及人工智能未来潜力的极大认可和期待。

02

Sora,将颠覆这些传统行业

OpenAI Sora的推出,让我们见证了一个技术奇迹的诞生。这个能够快速且优质地将文字描述转化为引人入胜视频的AI工具,不仅仅代表着技术上的一次巨大飞跃,也预示着我们熟悉的许多行业即将面临一场革命。

受其影响最大的行业,莫过于视频行业大类下的诸多细分行业了。

目前,全球有超过60亿人口是视频工具和短视频的用户,而其中与视频产业相关的从业者可能已经超过了将近10亿人,占到了全球总人口的13%到14%,这些从业者涵盖了影视行业、短视频行业以及我们日常触手可及的各种视频展示领域,包括广告制作等行业。随着人工智能(AI)技术在视频领域的融合与创新,这些从业者所在行业正在经历一场由AI视频技术引发的变革。

对于影视行业来说,AI视频模型的出现,将极大地降低拍摄剧集的门槛。

博主快刀青衣发文表示,在与业内人士的沟通中,做了20年影视导演的陈坤看到Sora后说的第一句话是“要变天了”,第二句话是“我直到今天才庆幸自己是个导演”。

而在追问中,陈坤表示现在的影视行业,分工极其精细,很多工种和里面的从业者都是阶段式配合,只有导演是需要从前期跟到后期的,然后去不停协调各个工种,从舞美、化妆、道具到灯光、摄像、摄影,从演员、编剧、剧务到动画特效,可以说一个环节掉链子,整个戏就可能功亏一篑。而如果AI视频按照现在的发展速度,至少很多简单的镜头、群演、灯光布景等,都可以用AI去完成了。

可以说,那些过去需要拍一年,花费数千万乃至上亿的影视作品,在未来凭借AI的能力,或许只需要一个月时间,成本也将大幅压缩,一变革不仅将对影视制作的效率产生深远影响,更可能引发对从业者技能要求的重大转变,未来有创意、会写prompt的导演,或许才是最需要的人才。

如果说对于影视行业从业者来说,AI视频模型是好帮手的话,那么对于广告行业从业者来说,更像是一场突如其来的“灭顶之灾”。

原本高度依赖人力创意和精细制作流程的广告拍摄与后期制作,在AI技术的赋能下,得以实现大规模的效率提升与成本优化。比如,以往制作一支高品质广告片,从策划、脚本撰写、场景搭建、模特选择到拍摄剪辑、特效合成等环节,可能耗时数月并耗费高昂预算。

而随着AI视频模型的应用,部分标准化及重复性高的工作内容,如背景替换、动态贴图、群演模拟等,均可以借助AI快速生成,从而极大地缩短了项目周期。

同时,AI作为“无情的学习机器”,完全可以替代人类根据品牌需求自动生成多版本广告创意,并通过机器学习不断优化传播效果,这无疑将对广告行业传统的创意生产模式带来前所未有的挑战,试想,在未来的竞标中,诸多友商报出数百万元价格的时候,AI视频广告公司却能以数十万元甚至数万元的成本完美解决用户需求,谁又能中标呢?

可以说,对于广告行业来说,AI视频带来的影响并不只是激烈的竞争,更意味着整个行业的组织模式与商业模式的重构。

此外,对于短视频行业来说,可以生成一分钟视频的Sora,已经对短视频从业者构成了极大的威胁。

在全球范围内,无论是中国的抖音、快手、B站和小红书等平台,还是国际版的TikTok,短视频内容消费正处于前所未有的高峰,而随着Sora的出现,用户现在能够迅速制作出各种类型的视频内容,未来稀缺的不再将是视频拍摄或者剪辑的能力,只要拥有独特的创意,便可轻松入局,也将会在短视频行业中掀起另一场风暴。

在Sora这一技术现象的辐射范围内,在其对视频产业带来的挑战与变革之外,也正悄然为其他领域开辟出新的机遇。其中,算力行业自然首当其冲,受益于Sora驱动的AI视频生成技术对强大计算能力的持续渴求,市场需求将迎来显著增长。但此处先按下不表,转而聚焦于另一个重要领域——安全行业。

海外研究界普遍认为,在AI视频生成广泛应用后,安全领域的革新将会是最受惠的方向之一。可以预见的是,随着技术的发展和普及,市场上将涌现一大批专注于视频真伪鉴别技术研发与服务的新兴企业。这些公司将利用最先进的算法和技术手段,为全球范围内的政府、企业和个人用户提供视频内容真实性验证服务,以及相关的数据安防解决方案。

Sora带起的这一波浪潮不仅会推动视频认证技术本身的进步,还将带动整个信息安全产业链的升级与完善,包括但不限于数字水印技术、深度学习检测模型、区块链存证等前沿技术的深度融合应用。一个全新的、围绕视频内容安全防护的生态系统也将在全球范围内逐步构建起来,为维护信息社会的公信力与秩序提供有力支撑。

03

百度、讯飞与字节,谁能摘下国产Sora桂冠?

在探讨了OpenAI的Sora模型与其对其他行业带来的深远影响之后,我们也该将视角转向国内,关注一下中国企业在文生视频领域的进展了。

年后A股开盘后,在Sora的催化之下,诸多概念股迅速升温,当日当虹科技、中文在线、因赛集团等公司均以涨停收盘,盘后也有许多企业在投资者交流平台交流相关进展。

其中,2月19日虹软科技官微宣,其核心大模型技术引擎——虹软ArcMuse再次升级。而此次升级将支持面向商拍的商业视频自动生成。

据介绍,与Open AI Sora类似,虹软ArcMuse大模型视频生成基于diffusion-transformer技术架构,具备丰富多样的创意力和想象力。通过图像,ArcMuse大模型能够捕捉到商品的细节特征、质感、色彩等方面的精确信息,生成更能展示商品真实面貌的动态商拍视频。

而因赛集团则在与记者的交流中表示,其AIGC项目团队按照计划,将在三月进行文生视频功能的开发,等待时机成熟后投入公测。

而在大模型的主流玩家行列里,字节跳动早在年初就发布了超高清文生视频模型MagicVideo-V2。据悉,该模型输出的视频在高清度、润滑度、连贯性、文本语义还原等方面,比目前主流的文生视频模型Gen-2、Stable Video Diffusion、Pika1.0等更出色。

而就在前几日,阿里云旗下魔搭社区(Model-Scope)上线文本生成视频大模型。目前由文本特征提取、文本特征到视频隐空间扩散模型、视频隐空间到视频视觉空间这3个子网络组成,整体模型参数约17亿。

但整体看下来,除去字节跳动的MagicVideo-V2有一定的水平之外,其他大多都处于一言难尽,甚至还无法看到效果的阶段,同Sora的距离还有很远很远。

至于国内何时能复现Sora,复现过程中会遇到哪些问题,也有媒体采访了某大模型团队的工程副总裁。

在采访中,对方表示,“Sora的’核弹效应’表现为业内广泛认可,是视觉AI的’ChatGPT时刻’”,“但是Sora打通的这条道路并不神秘,总体上没有很多超预期的技术,它是沿着大一统多模态大模型的既定路线,在工程上取得的一项成果,没有改变既定的技术范式和设计理念。”

但对于国内大模型团队的复现速度,他提醒道,“魔鬼在细节里,而细节在闭源模型的技术报告里几乎没有任何披露。追赶的速度也会由数据、算力和工程能力等硬约束。”

换一种说法便是,其实Sora实现文生视频的大致思路和逻辑都已经在技术文档中公之于众了,但想要真正完成复现甚至超越,仍然需要考验国内AI企业包括算力、数据和工程能力在内的诸多的综合实力。

从这样的角度来看,那最有望做出并肩甚至超越Sora模型的企业,也无外乎在大语言模型中领先的百度、科大讯飞。

百度其实在很久之前就推出了文生视频的能力,在百度的百家号中,当用户上传文章之后,会有一部分文章被百度精选出来,自动生成视频,而在最近也发布了一款名为“UniVG”的视频生成模型,相关效果也位于除Sora之外的前列。

同时,百度作为国内深耕AI行业最深的企业,无论是算力的充足、数据的丰富还是工程能力的先进,都处于国内第一梯队,只要其以正常的速度进行推进,那么百度版的能力更强的文生视频模型,也将于未来不久上线。

除百度外,科大讯飞作为专精AI赛道的公司,也是大语言模型竞争中的佼佼者,1月底,星火认知大模型刚完成了V3.5的升级,并在华为的帮助之下,相关算力与工程能力得到了较快的提升。也有接近科大讯飞人士透露,科大讯飞目前内部已经开始文生视频进一步攻关研发。

而在“传统”领先的大模型企业外,字节跳动或将借助存储数据的优势弯道超车。

字节跳动在短视频和社交媒体方面的海量数据资源,使会其在文生视频模型的研发上占据独特优势。MagicVideo-V2的发布及其效果上的显著提升,已经证明了字节跳动在该领域的技术实力与创新能力。

随着火山引擎大模型服务平台“火山方舟”的推出,以及与多家合作伙伴共建的生态体系不断完善,字节跳动不仅能够利用自身的庞大用户基础产生的实时、多样的数据流进行训练优化,还有望通过高效的模型迭代和协同创新,在未来开发出能与Sora匹敌甚至超越的新一代文生视频模型。

但这样的优势也未曾不是一种包袱,作为数据层面最占优势的字节,又能否快速补上工程能力上的短板,摘下国内首个正式开放文生视频的桂冠,仍需要时间来证明。

04

写在最后

Sora的出现,无疑是AI领域的一次重大突破。它不仅展现了AI在视频生成领域的巨大潜力,更为内容创作和多个行业带来了全新的思考和机遇,抖音、Tiktok、B站、P站等视频平台,都需要重新审视自己的内容生态了。

而对于中国企业来说,Sora的出现既是挑战也是动力,国内AI企业前方又出现了一个需要追赶的目标,百度、科大讯飞等在大语言模型中领先的企业,以及拥有海量数据资源的字节跳动,都应该加速了。

参考资料:

1.《OpenAI最新文生视频模型Sora技术能力解密:基于Patch的数据规范性、多模态Prompt支持、物体持久性和远程相干性能力》,Garvin Li;

2.《Sora模型发布,哪些行业要变天?》,IT魔术师;

3.《国内复现Sora能力几何?李维:不存在跨不过的技术门槛》,中证金牛座;

4.《Sora技术文档》,OpenAI。

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
Like (0)
Previous 2024年2月23日
Next 2024年2月23日

相关推荐

  • 抖音不再陪小杨哥“疯狂”

    就在抖音电商峰会一周前,快手一哥辛巴炮轰小杨哥,指责其在质检、售后、赔偿态度等方面存在问题,模仿辛选的商业模式,以及小杨哥此前销售的一些产品如茅台酒、梅菜扣肉等存在质量问题,如果小杨哥不处理,他将用一亿元替小杨哥进行赔付。
    在2022年9月的抖音电商作者峰会上,刚转型直播带货一年的小杨哥,第一次获得了抖音电商的卓越个人奖。
    在短视频时代,抖音成就了小杨哥,正如小杨哥感谢抖音那般,“它具有很强的开放性和包容性,它给每一个人都提供平等展示自我的机会”,小杨哥也为抖音带来了很多用户,高峰时期小杨哥抖音粉丝量超过了1.2亿。

    2024年9月20日
  • 科隆新材IPO:业绩波动、内控缺位或成上市“拦路虎”

    上半年业绩表现不佳
    科隆新材的主营业务是液压组合密封件和液压软管等橡塑新材料产品的研发、生产和销售,以及煤矿辅助运输设备的整车设计、生产、销售和维修,同时也为风电、军工、高铁等行业客户提供定制化橡塑新材料产品。
    同时,如果未来煤炭主体能源地位被快速替代,下游客户新机装备需求减少,科隆新材又未能拓展旧机维修业务,或是未能适应市场变化、新技术和新产品未能顺应市场发展趋势,那么科隆新材就存在橡塑新材料产品经营业绩下滑的风险,甚至可能会对公司整体经营业绩造成不利影响。

    商业密码 2024年9月20日
  • 淘宝倒逼新风向:一场电商减负运动

    但售后服务同时也是电商变革最复杂的一环,开店、佣金、流量推广都只是商家与平台间的服务交易,售后却涉及平台导向、商家成本和消费者体验三方,且受社会消费情绪变化、平台生态优劣的直接制约,是各方利益最难平衡的地方。
    我们也发现,在这个过程中,电商平台的自我角色定位也在调整,从推出「仅退款」的游戏规则制定者、大家长,逐渐过渡到生态系统的设计者、平衡商家和消费者利益的服务商。

    商业密码 2024年9月20日
  • 博浪AI时代,阿里、华为“硬碰硬”

    根据申万一级行业分类,阿里巴巴概念板块156家上市公司分布于22个行业,其中传媒、电子、商贸零售、通信、医药生物分别聚集了50、25、13、11、9只概念股。
    根据申万一级行业分类,华为概念板块896家上市公司分布于28个行业,其中,计算机、电子、机械设备、通信、电力设备分别聚集了220、193、92、65、61只概念股。

    商业密码 2024年9月20日
  • 员工挂“罪牌”戴纸托手铐引质疑,80后王云安创立的古茗又“翻车”了

    员工头挂“罪牌”手戴纸托手铐,古茗玩梗惨遭翻车
    近日,古茗员工头挂“罪牌”、手戴形似手铐纸托的视频,在社交平台上广泛传播,引发诸多网友热议。
    至于上海,王云安认为该市场毗邻浙江,因此会有一定的消费者基础,但是上海奶茶行业竞争激烈,外卖比例很高,相对来说门店的收益更难做好,“我们在进省会城市,以及大的一线城市的时候,我们一定是做好准备了再去的,比如上海的消费者到底要什么,我们进去应该怎么做才可以让更多的店做得更好,古茗能够给上海的消费者带来什么样的不同呢,这些是我们要去思考的。

    商业密码 2024年9月20日
  • 古井教父悲情收场

    1986年之后的十年里,古井的资产增长了18倍,利润增长了24倍,王效金也因此被称为“古井教父”,甚至是“中国酒界第一人”。
    这款拥有1800多年历史的安徽名酒也许永远也不会再与茅台并肩了,但如今也可以称得上再度振兴,尤其是这一切还建立在王效金的固执和自大,当年差一点毁了古井贡酒的基础上。
    他甚至曾经在公开场合说过,王效金就是古井,古井就是王效金,“效忠”古井就是效忠他。

    2024年9月20日
  • 直言AI不如原创,吴克群凭什么?

    吴克群的原创音乐哲学
    来到《音乐缘计划》,吴克群分外真诚。
    如此来看,吴克群选择参与《音乐缘计划》这一原创音乐综艺,正是源自于他与原创音乐人之间的惺惺相惜。
    在分享创作心得、探讨音乐理念时,吴克群不再简单是一个综艺节目的嘉宾,他也是作为一名原创音乐人出现在舞台上,让一切热爱与纯粹都具象化。
    于是,面对当下音乐生态的顽疾,新生代音乐人的困境,吴克群会在稳定的音乐事业之外,积极参与各种原创音乐活动。

    商业密码 2024年9月20日
  • 专门“收割”妈妈们的特百惠,被时代抛弃了

    02特百惠被时代抛弃了
    《新品略财经》记得三四年前,在深圳龙华区某购物中心还开了一家特百惠的店,也曾在店里买过东西,当时的印象是特百惠的产品卖得还不错。
    在《新品略财经》看来,特百惠既是时代的产物,也是被时代抛弃的产物,这与消费环境、消费需求、市场竞争,乃至是与特百惠的传统商业模式等各方面密切相关。
    从产品层面来说,特百惠是化学科技运用到日用物品的代表案例,在特百惠诞生的年代,家庭有着食物保鲜难的痛点,特别是在冰箱不普及的年代,特百惠犹如“刚需”般存在。

    商业密码 2024年9月20日
  • 县城消费的另一面:喝奶茶的少了,钓鱼的多了

    图源:作者拍摄

    图源:作者拍摄
    刘子涵继续说道,现在同学之所以不愿意喝新茶饮,还有一部分原因是,学生们对新茶饮的口感愈发失去新鲜感。

    图源:作者拍摄
    但并不是所有县城零食折扣店都这么火爆,中秋节假日当晚当地赵一鸣零食折扣店偌大的门店看不到太多顾客,收银台前也仅有几个顾客在排队结算。

    图源:受访者提供

    有人为钓鱼投入千元,有人干起代购
    和新茶饮相对冷清、零食折扣店门店客流分化不同的是,部分业态在县城仍迎来火爆。

    2024年9月19日
  • 闪回科技二度冲刺港股,深陷盈利困境,雷军看走眼了?

    在回收生意的上游,闪回科技通过闪回收从消费电子厂商、零售商、运营商以及C端消费者处获取二手手机供给。
    在下游销售端,闪回科技以“闪回有品”面向B端商户和消费者进行二手机和新机的销售,公司接近90%营收由闪回有品贡献。”

    B端渠道的手机厂商是闪回科技高增长最大的助力,但与之相伴的是,面对强势的手机大厂,闪回科技没有议价权,还需要向手机厂商支付高昂的保证金和促销服务费。

    2024年9月19日