视频生成AI卷起来了，一句话一张图就能出大片

2023年9月14日 15:54 • 未来科技

视频作者表示此预告片由Midjourney和Runway的Gen-2合成，配音也是由AI生成的玛格特·罗比和马特·达蒙的声音。更令人惊讶的是，整个制作过程他只花了4天！

万万没想到的是，这些超燃超真实的预告片画面竟然都是用AI生成的，这些预告片中的画面皆是由Midjourney生成，然后再通过Runway的Gen-2来实现让画面动起来的视觉效果。

当我们还在讨论ChatGPT和AI绘画时，AIGC的圈子里又刷新了一些新玩法。

只见大叔打个响指，摇身一变成贵族，穿越到了17、18世界的欧洲宫廷。

随后，又一个响指，变成了“星球崛起”里的主角，在残垣断壁的战场上穿梭。

这还不算最神奇的，紧接着一个转场，打响指的人物从老爷子变成了健美女性。

这个爆款视频正是通过AI初创公司Runway制作而成的，他们的AI视频生成产品Gen-1和Gen-2已全面开放，任何人都可以注册一个账号免费尝试。目前网站上可试用功能比较多，其中应用最多的是：文字+图像生成视频（Text + Image to Video）、图像生成视频（Image to Video），升级版效果比之前更好。

于是很多网友探索出了用Midjourney生成图像，然后用Gen-2把图像转化为视频的玩法。

甚至在此基础上，还能融合连贯的剧情和统一的艺术风格，再对视频画面进行一定编辑，一个电影预告片就诞生了，让我们一起来看看用Gen-2整活，究竟可以出多少脑洞？这些视频创意又是如何生成的？又有哪些技术原理呢？

一、令人惊叹的《创世纪》电影预告片

由 Nicolas Neubert创作的《创世纪》电影预告片的视觉震撼力吸引了许多人，据了解，这是作者使用Midjourney和Runway制作出来的。再将其进行剪辑优化，最终成为一条专业的预告片。

很多人在推特上询问Neubert的制作步骤，他后续也在推文中详细介绍了灵感来源和创作过程。首先他是从配乐开始构思整个故事，然后在剪辑时将视觉效果与音乐节拍进行匹配。

对于具体的故事情节，他想一步步增强紧张感，所以分成了3个部分来完成：背景介绍、制作冲突、引入高潮。

第一步就是起草文案，将“Sharing everything， living with the consequences， and then calling humanity up for action”作为主题，通过这个主题来定后面的整体基调和声音，然后就可以围绕这些主题去生成场景，在阅读观看大量关于军事科技、战斗主题的科幻剪辑后，最后确认了故事线，为了使影片看起来更加有深度，他还添加了三个带有发光护身符孩子的镜头，提高故事深度。

第二步是用Midjourney生成一致的图像。为了最大限度地保持一致性，他拟了一个提示词模板，可以在预告片的每个镜头中重复使用。

“Cinematic Shot， Crystal Object in the middle of circular room， star wars warfare， earthy naturalism， teal and yellow， frostpunk， interior scenes， cinestill 50d –ar 21:9 —style raw”

“电影镜头，圆形房间中间的水晶物体，星球大战战争，朴实的自然主义，青色和黄色，霜朋克，室内场景，cinestill 50d –ar 21:9 —风格原始”

closeup shot of raising a blade， detailed face， star wars warfare， cinematic contour lighting， in the style of detailed crowd scenes， earthy naturalism， teal and yellow， frostpunk， interior scenes， cinestill 50d –ar 21:9 —style raw

Huge laser cannon beam， star wars warfare， cinematic contour lighting， in the style of detailed crowd scenes， earthy naturalism， teal and yellow， frostpunk， interior scenes， cinestill 50d –ar 21:9 —style raw

Humans attached to computer by wired， detailed face， star wars warfare， cinematic contour lighting， in the style of detailed crowd scenes， earthy naturalism， teal and yellow， frostpunk， interior scenes， cinestill 50d –ar 21:9 —style raw

使用“Strong Variations”功能也很有帮助。这使得创建多样化场景变得容易，同时还能保持前一个变体的色调。女战士的场景可以转变为普通市民、网络黑客或战斗场景，而无需生成新的提示。

第三步是用Runway生成动画。勾选“Upscaled”可以提升画质（这个选项需要付费使用），但可能面部处理得不好，所以他通常使用标准质量，基本都是用图像直接生成一个个视频镜头。

第四步是在CapCut（免费软件）上进行后期剪辑。他将生成的镜头卡着音乐节奏拖入时间轴，慢慢拼凑出完整的故事。同时还要对2-3个剪辑包进行颜色匹配，使得它们看起来更像一个电影场景。

最终，他花费了大约7个小时完成这部预告片，其中在Midjourney输入了316个提示词，放大了128个图像，在Runway生成了310个视频片段，预告片使用了44个片段，相当于每分钟的制作成本是125美元。

二、火爆外网的AI影片“芭本海默”

最近在外网有个词特别火：“芭本海默”（Barbenheimer），是由网友用AI生成的《芭比》和《奥本海默》拼接而成的电影预告片——《Barbenheimer》（芭本海默）在网络上广泛传播。

而此次爆炸性效果让更多人尝试用Midjourney和Gen-2混搭，也二创出了超多优秀作品。由于Gen-2生成的视频时长比较短，甚至还有网友找到了Gen-2输出更长时间视频的方法，就是用Midjourney生成的图像作为初始图像，然后使用Gen-2输出的最后一帧作为下一张的图像提示。

三、AI视频打破次元壁，让梗图动起来

之前也有一些工具能够给图像添加动效，但都只是让图像的某些部分动起来，例如让老照片说话，前段时间DragGan的技术再现，都是通过对图像的部分进行移动，而此次Runway可以做到让AI来根据图像内容想象动态场景，其创意脑洞可以说是无限的。

许多网友也进行了二次创作，把一些搞笑梗图融合起来，就是一部电影故事。例如这位网友用Midjourney和Gen-2生成了一个电影短片，让美国知名政治人物、企业家齐上阵，出演由恶魔伪装的人类。

我们可以在片中看到许多熟悉的面孔：特朗普、拜登、希拉里、马斯克、扎克伯格……他们似乎在共同密谋着什么邪恶计划。

借助AI，人们可以发挥想象，创造出原本现实中不存在的人物动作和故事情节。除了电影和整活视频之外，还有人利用ChatGPT写脚本，Midjourney生成图像，Runway Gen-2生成视频，然后再通过剪辑组合，就是一个高质量的广告片。

四、视频生成技术发展的关键阶段

看到这里，你肯定要感叹AI视频的技术已经这么成熟了，甚至让好莱坞电影制作方都要开始担忧了。但其实目前Runway的视频生成还是不能一步到位，无法生成更长片段的视频，并且人物面部、动作变形问题等还是不太可控。如果真的要制作一个完整的电影或者广告片，你可能要花费更多的时间去不断尝试使用它。

视频生成的技术发展至今，其实大致可以分为图像拼接生成、GAN/VAE/Flow-based生成、自回归和扩散模型生成几个关键阶段。随着深度学习的发展，视频生成无论在画质、长度、连贯性等方面都有了很大提升。但由于视频数据的复杂性高，相较于语言生成和图像生成，视频生成技术当前仍处于探索期，各类算法和模型都存在一定的局限性。

Runway就是使用的主流模型Gen，Gen模型通过潜在扩散模型学习文本-图像特征，可以根据给定的文本提示或参考图像生成新的视频，或根据原始视频+驱动图像进行视频风格转换等多种任务。模型在视频渲染和风格转换方面具有较好的表现，生成的视频艺术性和图像结构保持能力较强，因此可以更好地适应模型定制要求，但Gen模型在生成结果的稳定性方面仍然存在局限，还需要技术去不断探索精进，按现如今AI技术的发展，相信这些局限性在不久的将来就能解决。

除了Runway，市面上还有一些支持文字生成视频、图片生成视频的工具，比如ZeroScope、PikaLab、Kaiber等，以目前AI视频的处理效果来看，是否能达到商业应用要求，还有待考究。

本文来自微信公众号：硅星人Pro（ID：gh_c0bb185caa8d），作者：Nikki，编辑：VickyXiao

声明：该内容为作者独立观点，不代表新零售资讯观点或立场，文章为网友投稿上传，版权归原作者所有，未经允许不得转载。新零售资讯站仅提供信息存储服务，如发现文章、图片等侵权行为，侵权责任由作者本人承担。如对本稿件有异议或投诉，请联系：wuchangxu@youzan.com

Like (0)

顺风车市场“老大”地位不保，嘀嗒出行四闯IPO能否如愿？

Previous 2023年9月14日 15:45

苹果手机也开始摆烂了

Next 2023年9月14日 15:57

水温80度：AI行业真假繁荣的临界点

我们从来没拥有过这么成功的AI主导的产品。

（这种分析统计并不那么准，但大致数量级是差不多的）

这两个产品碰巧可以用来比较有两个原因：

一个是它们在本质上是一种东西，只不过一个更通用，一个更垂直。

蓝海的海峡

未来成功的AI产品是什么样，大致形态已经比较清楚了，从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时“罢工”，全网打工人都慌了

美西时间午夜12点开始，陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载，忽然无法正常工作了。

因为发现AI用久了，导致现在“离了ChatGPT，大脑根本无法运转”。”

等等，又不是只有一个聊天机器人，难道地球离了ChatGPT就不转了。

大模型连崩原因猜想，谷歌躺赢流量激增6成

GPT归位，人们的工作终于又恢复了秩序。

未来科技 2024年6月5日
ChatGPT宕机8小时，谷歌Gemini搜索量激增60%

ChatGPT一天宕机两次

谷歌Gemini搜索量激增近60%

ChatGPT在全球拥有约1.8亿活跃用户，已成为部分人群工作流程的关键部分。

过去24小时内提交的关于OpenAI宕机的问题报告

图片来源：Downdetector

ChatGPT系统崩溃后，有网友在社交媒体X上发帖警告道：“ChatGPT最近发生的2.5小时全球中断，为我们所有依赖AI工具来支持业务的人敲响了警钟。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时大崩溃，AI集体罢工让全网都慌了

接着OpenAI也在官网更新了恢复服务公告，表示“我们经历了一次重大故障，影响了所有ChatGPT用户的所有计划。Generator调查显示，在ChatGPT首次故障后的四小时内，谷歌AI聊天机器人Gemini搜索量激增60%，达到327058次。

而且研究团队表示，“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关，显示出用户把Gemini视为ChatGPT的直接替代选项。

未来科技 2024年6月5日
深度对话苹果iPad团队：玻璃的传承与演变

iPad最为原始的外观专利

没错，这就是iPad最初被设想的样子：全面屏，圆角矩形，纤薄，就像一片掌心里的玻璃。

2010年发布的初代iPad

好在乔布斯的遗志，并未被iPad团队遗忘。

初代iPad宣传片画面

乔布斯赞同这一想法，于是快速将资源投入平板电脑项目，意欲打造一款与众不同的「上网本」，这就是iPad早年的产品定义。

iPad进化的底色

苹果发布会留下过很多「名场面」，初代iPad发布会的末尾就是一例。

未来科技 2024年6月5日
底层逻辑未通，影视业的AI革命正在褪色…

GPT、Sora均为革命性产品，引发了舆论风暴，但它在上个月发布的“多模态语音对谈”Sky语音，却由于声音太像电影明星斯嘉丽·约翰逊，被正主强烈警告，被迫下架。

华尔街日报也在唱衰，认为“AI工具创新步伐正在放缓，实用性有限，运行成本过高”：

首先，互联网上已经没有更多额外的数据供人工智能模型收集、训练。

03、

如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向，那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

但分歧点正在于此，电影公司希望通过使用AI技术来降低成本，但又不希望自己的内容被AI公司所窃取。

未来科技 2024年6月5日
KAN会引起大模型的范式转变吗？

“先变后加”代替“先加后变”的设计，使得KAN的每一个连接都相当于一个“小型网络”，能实现更强的表达能力。

KAN的主要贡献在于，在当前深度学习的背景下重新审视K氏表示定理，将上述创新网络泛化到任意宽度和深度，并以科学发现为目标进行了一系列实验，展示了其作为“AI+科学”基础模型的潜在作用。

KAN与MLP的对照表：

KAN使神经元之间的非线性转变更加细粒度和多样化。

未来科技 2024年6月5日
这个国家，也开始发芯片补贴了

//mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
[4]中国安防协会：欧盟批准430亿欧元芯片补贴计划：2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
[6]潮电穿戴：印度半导体投资大跃进，一锤砸下1090亿，政府补贴一半.2024.3.5https。

未来科技 2024年6月5日
大模型的电力经济学：中国AI需要多少电力？

这些报告研究对象（数字中心、智能数据中心、加密货币等）、研究市场（全球、中国与美国等）、研究周期（多数截至2030年）各不相同，但基本逻辑大同小异：先根据芯片等硬件的算力与功率，计算出数据中心的用电量，再根据算力增长的预期、芯片能效提升的预期，以及数据中心能效（PUE）提升的预期，来推测未来一段时间内智能数据中心的用电量增长情况。

未来科技 2024年6月5日
你正和20万人一起接受AI面试

原本客户还担心候选人能否接受AI面试这件事，但在2020年以后，候选人进行AI面试的过程已经是完全自动化的，包括面试过程中AI面试官回答候选人的问题，AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

以近屿智能与客户合作的校验周期至少3年来看，方小雷认为AI应用不太可能一下子爆发，包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

未来科技 2024年6月4日

视频生成AI卷起来了，一句话一张图就能出大片

相关推荐

Share To :