AI视频生成有多卷？‍‍‍‍‍‍‍‍

2023年12月14日 16:40 • 未来科技

AI 视频生成有多卷？‍‍‍‍‍‍‍‍

当前的 AI 赛道，AI 生文、生图应用层出不穷，而AI生成视频领域仍处于相对早期发展阶段，尽管有一些初步尝试和突破，但难以与其他AI生成内容相媲美，它们仍然存在许多问题，抖动、闪现，以及频繁出现的画面跳变，这种“鬼畜”现象很难保证稳定的生成效果。

然而最近 Pika 的火热，重新带动了人们对 AI 视频生成的关注，甚至带动创始人父亲的上市公司接连涨停。

科技媒体们争相报道，都把 Pika 视作“AI 视频鼻祖”Runway 强有力的竞争者。Runway 是市场公认更为成熟的 AI 视频生成工具，去年热门影片《瞬息全宇宙》在制作中就用到了后者的技术。

一众看好伴随而来的是炒作质疑，有人担心 Pika 1.0 存在过度宣传或夸大技术能力，导致公众对 AI 视频产生不切实际的期望。显然，Pika 官方注意到了这些不同的声音，在上周紧急放出一波用户的内测视频，效果跟宣发同样惊艳，击碎外界的指责，口碑瞬间反转。

事实上，AI 文生视频领域的竞争最近正变得日益活跃，背后参与者不仅包括高校和科研团队，还涵盖了多家科技巨头和风头正劲的AI初创公司。

在海外，Runway、Pika Labs、Meta（Emu Video）、李飞飞团队的 AI 文生视频战争正打得火热，比拼谁生成的效果更稳定、更惊艳；在国内，字节、美图秀秀等互联网企业也在暗暗较劲，纷纷布局 AI 文生视频工具成果。

那么，Pika 的发布，是否意味着最强 AI 文生视频工具即将易主？AI 视频为何突然爆发，竞争力在哪里，给圈内带来哪些启发？之前被制约发展的关键因素有哪些，又是如何破局的？是否标志着这一领域的杀手级应用已经诞生，“GPT 时刻”已经到来？未来又会朝着什么方向演进？

干掉 Runway？

为何成立刚过半年的 Pika，突然这么被追捧？

短短 7 个月，Pika 已累计完成 3 轮、成功拿到 5500 万美元的融资，估值已超 2.5 亿美元。投资人中不乏 OpenAI 科学家、“政变”之后仅存的董事会成员，难道其真的掌握了“科技与狠活”？

今年 4 月份，创始人郭文景才和同学从斯坦福博士辍学创办 Pika，他们希望打造更容易使用的 AI 视频生成器，让每个人都能成为自己故事的导演。

此前产品的效果跟 Runway 比不了，只是在搞视频的圈子里小有名气。要不是凭借免费模式圈了一波忠诚用户，不会有这么多人使用它。目前社区用户达到 50 万，每周制作数百万个视频，其中 Discord 服务器人数超过 16 万。为此，Pika 已经租用了数百个量级的 GPU。

从 11 月 29 日开始，关于 Pika 的创业报道突然铺天盖地。官方宣布推出其首款视频生成产品——Pika 1.0，极大地降低了使用门槛，官方甚至宣称只需要简单地打字就可以开始使用，即“Start just by typing（只要打字就能开始）”，其对语义理解的准确度和画面的精细效果超出业界预期。

据悉 Pika 计划在明年实现商用，可以帮助用户生成可用性较高的素材和视频片段，预计视频时长将比目前长几倍，但仍然会控制在 1 分钟以内。

就在许多人猜测 Pika 获得融资后，为扩大影响力而主动对外进行宣传之际，拿到评测资格的创作者透露，Pika 1.0 支持 3 种方式生成视频：文生视频、图生视频、视频转视频，感觉完全重新做了一个模型，最擅长 2D、3D 动画。

除了视频转视频以外，文生图、文生视频、图生视频等效果都非常强。他通过文字下指令，只花了 1 分钟就生成一个完全匹配上皮克斯水平的动画，神情、稳定性爆杀市面上所有的 AI 视频。

看来，Runway 的劲敌真的来了。

然而，郭文景在福布斯专访中却表现得很谦虚，她并不打算与这个领域的强大竞争对手（比如 Adobe、Runaway）为敌。“我们跟他们不同，不是要为电影制作打造产品。”“我们试图为日常消费者做更多的事情 —— 像我和 Meng 这样的人，他们本质上是创作者但又不那么专业。”

与 Runway 同时服务 C 端消费者和企业的做法不同，Pika 希望专注于为C端普通消费者打造产品，以此做出差异化，拉开与其他竞品的距离。

目前 Runway 可免费试用、定价 12 美元/月，而 Pika 为免费产品，不过后续也会考虑订阅收费模式。

实力玩家激战正酣

随着短视频、社交媒体营销中的视频内容以及创作者经济的崛起，越来越多的新兴剪辑产品开始出现并且展现出势能。

目前，视频编辑的需求会更强于生成。像字节跳动的 CapCut （剪映）在海外市场同样受到欢迎，已突破亿级用户。

AI 在后期制作和剪辑环节中的高效率已经表现得非常显著，使得视频创作在这个环节发生了明显的变化。普通用户不需要再下载传统剪辑软件、花时间学习课程，就可以通过浏览器或移动端 App 使用轻量化 AI 剪辑功能。

从风险投资公司 a16z 此前的统计，也能得出这样的结论，即视频编辑功能在这类应用中仍占据了相当重要的地位。

a16z 统计的六个视频 AIGC 应用中，只有两个应用是专注于视频生成的，分别是 Runway 和 Kaiber。而剩下的应用则都包含了一定的视频编辑功能，这些功能包括但不限于利用现有素材进行再创作（如 D-ID 和 Fliki），以及进行视频剪辑（如 Kapwing 和 Veed）。

不过，随着拍摄成本的不断上升，使用生成的内容作为替代方案变得越来越有吸引力，也就是说视频生产环节也在发生变化。

据公众号“海外独角兽”总结，推动这一趋势的产品主要分为两类：1）HeyGen、Sythesia 等数字人产品（有固定模版，只改变局部画面）；2）Runway、Pika Labs 等视频生成产品（依照文字、图片等生成全新视频）。

AI 生成视频领域在最近呈现出前所未有的活跃态势，各种模型纷纷扎堆进行更新。尤其上个月开始，AI 文生视频竞争变得非常激烈，是一个巨大飞跃。

10 月，初创企业 Moonvalley 由 AI 图/文生成转向 AI 视频生成，推出号称“史上最强大的视频生成 AI”，一句提示词就能生成 16:9 电影画质的高清视频。

11月3日，Runway宣布其AI视频生成工具Gen-2更新，分辨率提升至4K，大幅提高保真度和一致性；一周后，又紧急推出运动画笔功能，强化视频局部编辑能力。
11 月 16 日，Meta 宣布推出两款 AI 驱动的生成模型—— Emu Video 和 Emu Edit，其中 Emu Video 利用 Meta 之前的 Emu 模型，能够基于文本和图像输入生成视频剪辑；而 Emu Edit 则专注于图像处理，承诺在图像编辑方面提供更高的精确度。
11 月 22 日，AI 绘画走红的 Stability AI 发布了其最新 AI 模型 Stable Video Diffusion，能够通过现有图片生成视频，是基于之前发布的 Stable Diffusion 文本转图片模型的延伸，也是目前为止市面上少数能够生成视频的 AI 模型之一。
11 月 28 日，AI 视频工具 Pika 1.0 发布，具有文生视频、用文字完成视频局部编辑等功能，效果媲美 Runway 的 Gen-2。
12月12日，李飞飞及其学生团队与谷歌合作，推出了AI视频生成模型W.A.L.T（窗口注意力潜在Transformer ，Window Attention Latent Transformer），可以通过自然语言提示生成3秒长的每秒8帧、分辨率达512×896的逼真视频；可以让一张静图变为生动活泼的动图；还能生成3D摄像机运动的视觉效果。

可以说，AI 技术的发展和应用正在推动视频创作的各个环节发生变革，为创作者带来更多的可能性。过去，AI视频应用主要局限于企业（B端）市场和专业创作者，这在一定程度上限制了其在商业领域的广泛发展和应用。

Pika类应用的爆发，意味着传统内容创作者可以利用 AI 工具提高工作效率，同时非专业人士也有了更多的机会尝试内容创作，进一步打开C端市场，扩大了AI 视频的商业化空间。

据中信建投总结，“AI+视频”不仅是一种 AI 应用，更是 LLM 后 AI 新基建能力：1）To C，降低 UGC 门槛，有望出现“AI 时代的抖音”或视频版妙鸭产品。2）To B，在电商、教育等场景降本增效；长期在影视、游戏制作空间大。

AI 视频“GPT 时刻”仍未到来

得益于过去大模型技术的持续改进，文本生成、图像生成、语言翻译和音频生成等已经被广泛应用于多个领域，这些已经逐渐进入了成熟期。比如前段时间有几个 AI 配音的生成音频就刷爆了网络，赵本山说英文、霉霉讲中文。背后使用到的 AI 生成工具是 AI 数字人 HeyGen。

尤其在图像生成领域比 ChatGPT 等文本生成的大模型成熟期还要早，如 Midjourney、DALL·E 3 和 Stable Diffusion 等模型，它们能够根据文本描述生成高质量的图像。

相对而言，视频生成普及程度并不高。在视频生成方面，尽管有一些模型如 DALL·E 3 和 Midjourney 提供了动画制作的工具，但整体上文生视频的技术发展相比于图像生成要慢一些。

反过来看，这也意味着 AI 视频仍处于爆发前夕，充满了巨大的潜力和机会。在大模型技术的加持下，视频生成的成熟度和用户规模也开始追赶上来了。视频生成能在短时间内追上来，说明技术的门槛在降低。

要知道，成立短短半年多的 Pika 一夜爆红，已拿到 3 轮融资；而鼻祖 Runway 早在 2015 年就是一家 AI 初创公司了，其融资也才到 D 轮，估值达 15 亿美元。

那么，AI 视频的“iPhone 时刻”或者杀手级应用到来了么？

Pika 很自信，认为“GPT 时刻”很快就会到来，明年就能看到了。

“我希望明年就可以实现。给用户的感受就像 ChatGPT、Midjourney v5 那样，有一个显著提升。”Pika 创始人郭文景接受采访时表示。

实事求是地说，目前的 AI 文生视频赛道的难度仍很大，尤其难以解决画面变得稳定的抖动问题。

这跟早期的手绘动画很相似，都是先绘制很多帧静止的图像，之后将这些图像连接起来，并通过一帧帧图像的渐变，实现画面的运动。由于目前的 AI 文生视频技术，还无法准确地确定关键帧，这导致了画面抖动和不稳定的生成效果。

再加上当前人们依然会为 Adobe 等传统软件支付费用，但视频生成类的用户付费比例还很低，盈利模式的可持续性受到挑战。

显然，我们也要清楚大模型的边界在哪儿。不要高估大模型的能力，它有很多事情还做不了。当下，生成式 AI 视频工具将大批量产生短剧系列，但困于技术短板，时长、清晰度、流畅度还都很有限，对于长视频的影视剧影响还较小。

如爱奇艺创始人、CEO 龚宇最近谈及 AIGC 对内容行业的挑战：明显开始对我们这个行业产生了影响，虽然在工作流程中只参与其中一两个环节，它创意的作品套路、商业价值很低，现在的水平和我们这个产业的要求相距甚远，但是未来 3-5 年很可能发展成为主流工作方式。

因此，虽然 Pika 的出现让人们对 AI 文生视频充满了期待，但是 AI 文生视频技术距离人们期望中的理想效果，还有很长的路要走。

由此可见，眼下 AI 视频的 iPhone 时刻、GPT 时刻，或者说 All- in-one 杀手级应用尚未到来。

结语

Pika 文生视频 AI 应用的出现，给 AI 生成式视频添了一把旺火，再次燃起了人们对 AI 文生视频赛道的关注。这背后源于 GPT-4V 等多模态大模型的推出，基于扩散模型的 Dalle-3、Midjourney 和 Stable Diffusion 等技术的功能不断增强，势必对影视、娱乐和广告营销创意等行业产生了巨大的影响，甚至可以说是颠覆。

那么，这距离人们期望中的AI 视频理想效果还有多远呢？

无论是企业级还是消费级，AI 视频的前景都面临着巨大不确定性。同时还存在不少现实挑战，如版权问题、原创性保护以及如何确保 AI 生成内容的质量和合规性等。尤其是投资者更关心 AI 能否带来实际的经济效益，运行高级 AI 模型的 AI 算力成本可能是一个障碍，这些模型需要大量的计算资源，用户量不断增长，算力成本也会相应地增加。

总之，视频 AI 的崛起确实标志着人工智能竞争进入了下一阶段。在这个阶段，各大公司和研究机构都在积极布局视频 AI，以争夺在这一领域的竞争优势。随着技术的不断发展，我们可以期待在未来看到更多创新性的产品和应用。

我们期望那一天的到来，即未来Transformer或其他某种算法能够精准地预测下一帧内容，那么我们将迎来全新的视频模型，这样的技术突破有可能催生出下一个炙手可热的内容平台。

本文来自微信公众号：飞哥说AI（ID：FeigeandAI），作者：元帅，编辑：高佳

声明：该内容为作者独立观点，不代表新零售资讯观点或立场，文章为网友投稿上传，版权归原作者所有，未经允许不得转载。新零售资讯站仅提供信息存储服务，如发现文章、图片等侵权行为，侵权责任由作者本人承担。如对本稿件有异议或投诉，请联系：wuchangxu@youzan.com

Like (0)

小编手撕董宇辉，东方甄选甩锅“丈母娘”？

Previous 2023年12月14日

云南白药：“百年药王”迷途知返

Next 2023年12月14日

水温80度：AI行业真假繁荣的临界点

我们从来没拥有过这么成功的AI主导的产品。

（这种分析统计并不那么准，但大致数量级是差不多的）

这两个产品碰巧可以用来比较有两个原因：

一个是它们在本质上是一种东西，只不过一个更通用，一个更垂直。

蓝海的海峡

未来成功的AI产品是什么样，大致形态已经比较清楚了，从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时“罢工”，全网打工人都慌了

美西时间午夜12点开始，陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载，忽然无法正常工作了。

因为发现AI用久了，导致现在“离了ChatGPT，大脑根本无法运转”。”

等等，又不是只有一个聊天机器人，难道地球离了ChatGPT就不转了。

大模型连崩原因猜想，谷歌躺赢流量激增6成

GPT归位，人们的工作终于又恢复了秩序。

未来科技 2024年6月5日
ChatGPT宕机8小时，谷歌Gemini搜索量激增60%

ChatGPT一天宕机两次

谷歌Gemini搜索量激增近60%

ChatGPT在全球拥有约1.8亿活跃用户，已成为部分人群工作流程的关键部分。

过去24小时内提交的关于OpenAI宕机的问题报告

图片来源：Downdetector

ChatGPT系统崩溃后，有网友在社交媒体X上发帖警告道：“ChatGPT最近发生的2.5小时全球中断，为我们所有依赖AI工具来支持业务的人敲响了警钟。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时大崩溃，AI集体罢工让全网都慌了

接着OpenAI也在官网更新了恢复服务公告，表示“我们经历了一次重大故障，影响了所有ChatGPT用户的所有计划。Generator调查显示，在ChatGPT首次故障后的四小时内，谷歌AI聊天机器人Gemini搜索量激增60%，达到327058次。

而且研究团队表示，“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关，显示出用户把Gemini视为ChatGPT的直接替代选项。

未来科技 2024年6月5日
深度对话苹果iPad团队：玻璃的传承与演变

iPad最为原始的外观专利

没错，这就是iPad最初被设想的样子：全面屏，圆角矩形，纤薄，就像一片掌心里的玻璃。

2010年发布的初代iPad

好在乔布斯的遗志，并未被iPad团队遗忘。

初代iPad宣传片画面

乔布斯赞同这一想法，于是快速将资源投入平板电脑项目，意欲打造一款与众不同的「上网本」，这就是iPad早年的产品定义。

iPad进化的底色

苹果发布会留下过很多「名场面」，初代iPad发布会的末尾就是一例。

未来科技 2024年6月5日
底层逻辑未通，影视业的AI革命正在褪色…

GPT、Sora均为革命性产品，引发了舆论风暴，但它在上个月发布的“多模态语音对谈”Sky语音，却由于声音太像电影明星斯嘉丽·约翰逊，被正主强烈警告，被迫下架。

华尔街日报也在唱衰，认为“AI工具创新步伐正在放缓，实用性有限，运行成本过高”：

首先，互联网上已经没有更多额外的数据供人工智能模型收集、训练。

03、

如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向，那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

但分歧点正在于此，电影公司希望通过使用AI技术来降低成本，但又不希望自己的内容被AI公司所窃取。

未来科技 2024年6月5日
KAN会引起大模型的范式转变吗？

“先变后加”代替“先加后变”的设计，使得KAN的每一个连接都相当于一个“小型网络”，能实现更强的表达能力。

KAN的主要贡献在于，在当前深度学习的背景下重新审视K氏表示定理，将上述创新网络泛化到任意宽度和深度，并以科学发现为目标进行了一系列实验，展示了其作为“AI+科学”基础模型的潜在作用。

KAN与MLP的对照表：

KAN使神经元之间的非线性转变更加细粒度和多样化。

未来科技 2024年6月5日
这个国家，也开始发芯片补贴了

//mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
[4]中国安防协会：欧盟批准430亿欧元芯片补贴计划：2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
[6]潮电穿戴：印度半导体投资大跃进，一锤砸下1090亿，政府补贴一半.2024.3.5https。

未来科技 2024年6月5日
大模型的电力经济学：中国AI需要多少电力？

这些报告研究对象（数字中心、智能数据中心、加密货币等）、研究市场（全球、中国与美国等）、研究周期（多数截至2030年）各不相同，但基本逻辑大同小异：先根据芯片等硬件的算力与功率，计算出数据中心的用电量，再根据算力增长的预期、芯片能效提升的预期，以及数据中心能效（PUE）提升的预期，来推测未来一段时间内智能数据中心的用电量增长情况。

未来科技 2024年6月5日
你正和20万人一起接受AI面试

原本客户还担心候选人能否接受AI面试这件事，但在2020年以后，候选人进行AI面试的过程已经是完全自动化的，包括面试过程中AI面试官回答候选人的问题，AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

以近屿智能与客户合作的校验周期至少3年来看，方小雷认为AI应用不太可能一下子爆发，包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

未来科技 2024年6月4日

AI视频生成有多卷？‍‍‍‍‍‍‍‍

相关推荐