Sora生成的视频太真实?那是你遇到造假了

下面这只“飞入海底的蝴蝶”,虽然没有尊重基本事实(毕竟蝴蝶没入海底怕是飞不起来),但如果是特效,那还是可以的:

一只寻找庇护所的流浪猫:

在单只动物的相对简单的场景里,Sora。//openai.com/research/video-generation-models-as-world-simulators

本文来自微信公众号:AI前线。

在文章开始,请先看下面的视频:

视频发布者“No Context Brits”表示这是 Sora 生成的,提示词是:Brit gets hit by a bus then goes for a pint。

那么你认为,上面视频是真的还是 AI 生成的?

这个问题的答案,我们留到最后揭晓。

一、现实真的不存在了吗?

当大家都在说 Sora 颠覆行业的时候,Sore 究竟能颠覆多少?我们由易到难,看看 Sora 制作的视频,可以达到什么级别。

1. 风景

风景类视频制作可以说是入门级,画面细节要求相对少一些,构图、运镜相对比较重要。而 Sora 确实能制作出纪录片里常用到的运镜方式,构图也是参照了构图规则的:

同时,与视频生成领域的其他同行比,Sora 在真实性、连续性上的进步也是很明显的:

2. 动物

在 OpenAI Sora 研发成员 Aditya Ramesh 发出的一个关于一只蚂蚁“在蚁巢内部移动的视角镜头”的视频里,Sora 给出了如下效果:

这个视频犯了基础的认知错误:里面的蚂蚁只有四条腿,真实世界里的是六条腿。杨立昆(Yann LeCun)也直接指出了这一点,但仍止不住网友对视频效果的赞叹。

题外话:Aditya 与 LeCun 也有一段缘分。据 LeCun 爆料,Aditya 本科就读于纽约大学,并参加过其实验室的一些项目。

下面这只“飞入海底的蝴蝶”,虽然没有尊重基本事实(毕竟蝴蝶没入海底怕是飞不起来),但如果是特效,那还是可以的:

一只寻找庇护所的流浪猫:

在单只动物的相对简单的场景里,Sora 表现还是不错的。

3. 人物

在最新发布的 Sora 生成视频里,有一个体现人类惊讶表情的视频,但效果不太好:鲨鱼在离沙滩特别近的沙滩出现,女人夸张的惊讶……“那个女人比鲨鱼更让我害怕,制作恐怖电影可能是 Sora 的最佳用途。”网友评价。另外,这个视频的逻辑还需要提示词输入进行调整,比如男人的无动于衷。

下面这个老人过生日的视频应该很多人见过,效果相对还是相对丝滑一些的,虽然老人吹蜡烛时,烛光动也没动……

这个猫和主人互动的视频里,猫挠到主人鼻子时,鼻子的变化给人感觉像一张纸。另外,她不疼吗?!

更复杂一些的场景,我们看看 Sora 的一镜到底:

“几乎完美。但是吹毛求疵,这里的视角不太好。看起来用餐的人坐在一个小型市场旁边。”有敏锐的网友指出:

“大多数人身上都发现了人工制品和某种程度的幻觉。”复杂场景下,Sora 还是做不到完美。

4. 特效

特效视频就不存在真实性问题了,视觉效果是重要的衡量因素。

Sora 研发团队 Bill Peebles 发布了一只“科技犬”视频:未来控制论德国牧羊犬的特写镜头,展示了其引人注目的棕色和黑色皮毛……

一位数字艺术方面的从业者表示,“这看起来比我们见过的任何 CGi 都更真实。迫不及待地希望能够尽快将视频制作变为 3D 模型,这样我们就可以在游戏中拥有这些资源和动画。”也有网友调侃道,“本次拍摄中没有动物受伤。”

Bill 还发布了另一个特效视频:“一座巨大的大教堂里全是猫。放眼望去,到处都是猫。一个男人走进大教堂,向坐在王座上的巨型猫王鞠躬。”在经过网友增加旁白和配音后,便是这样的:


旁白 @ChatGPTapp

配音者 @elevenlabsio

音乐由 @suno_ai_

如果有一天,OpenAI 能够直接将视觉效果和听觉效果一起输出,那又会是震惊行业的一件大事。可以看下,网友给 Sora 视频加上视觉效果是什么样的:

Sora 研发团队另一位重要成员 Tim Brooks 用 Sora 让沙盒游戏《我的世界》拥有了“有史以来最华丽的高分辨率 8k 纹理包”:

同时,Tim 还让《我的世界》视频融合进摩托车视角,“这个功能有如此大的创造潜力”Tim 说道。

其实效果已经不错,有网友建议可以在提示中加上“光线追踪、光晕、后期特效”等,这样效果可能会更好。

下面是一个 Sora 改变视频的风格和环境的例子,一辆跑车穿梭在水底、恐龙乐园、像素世界等等场景中:

“一只鸭子走在波士顿的街道”,如果更加复杂一些,会不会有漫威的感觉?



“在叶子上行驶的火车”,叶子的脉络还真是很清晰的,当然也有网友认为这种视频没有什么用,更多是一种数字垃圾。

二、谢赛宁:Sora 跟我没关系

Sora 能有上面的效果,主要得益于 DiT 架构和 Spacetime Patch。

其中,Spacetime Patch 建立在 GoogleDeepMind 对 NaViT(原生分辨率视觉 Transformer)和 ViT(视觉 Transformer)的早期研究基础上。Patch 可以理解为 Sora 的基本单元,类比 Token。Sora 处理一系列的 Patch,并预测出序列中的下一个 Patch。

Sora 团队发现补丁是一种高度可扩展且有效的表示形式,因此通过 Spacetime Patch 将视频视为补丁序列,捕捉视觉数据使模型能够从更准确的表达中学习。

从 OpenAI 的技术报告可知,Sora 的作者团队有 13 位成员,如今被报道最多的核心成员包括研发负责人 Tim Brooks、William Peebles、系统负责人 Connor Holmes 等。

其中,Tim Brooks 是 DALL-E 3 作者之一,GitHub 5.7k️星项目 InstructPix2Pix 作者,博士毕业于 UC Berkeley 的伯克利人工智能研究所 BAIR。Tim 曾在谷歌为 Pixel 手机摄像头提供 AI 算法,也在英伟达负责过视频生成模型的研究。

William Peebles 也来自 UC Berkeley,去年(2023 年)刚刚获得博士学位。据悉,William 和谢赛宁合作,研发了 DiT。也因为这个关系,毕业于上海交大的天才少年谢赛宁被报道为是 Sora 的研发者之一。谢赛宁本人对此强烈否认:“一点关系都没有”。

Connor Holmes 则曾在 Colorado School of Mines、微软工作过,在 LLM、BE RT 风格的编码器、RNN 和 UNets 方面有丰富经验。“我期待解决在扩展深度学习工作负载以进行推理和训练时系统效率低下的问题。”他在自己的领英上说道。此外,Sora 团队的不少成员都是 DALL-E 3 的作者,包括两位华人 Li Jing 和 Yufei Guo。

三、结束语

“如何加入红队?我可以帮助测试”有积极参与的人,也有不喜欢生成视频的人:“我看视频,不是想看虚拟的世界,而是想通过镜头去看自己不了解的真实的世界。”

现在网上也出现了很多声称是 Sora 生成的视频,但其实并不是。比如下面这个女团视频声称是Sora生成的,但真实性存疑。


来源:https://twitter.com/ViLettuce/status/1758976415150559638

还比如下面视频的发布者“víty”表示这个“女生吃面包时与他人发生争执”视频是 Sora 生成的,提示词是:White woman eats bread, ant bitchslap, white woman laughts, pian oduhh, house eviction, cool bassout romusic.

但有网友指出,这个视频并非 Sora 生成的,而是来源于一部名为《Ti Ti Ti》的肥皂剧。看过这部剧的朋友可以出来说说~

来源:https://twitter.com/vvvorvvtorvitor/status/1758654081176866906

回到文章最初问到的问题,其实帖子下面也引起了网友的各种讨论,有人说是真的,有人说是生成的。而真正的答案就是:那是真实的视频。

出自外媒 The Guardian 在 2017 年的报道

你猜对了吗?

参考链接:

https://twitter.com/minchoi/status/1758831971726225591

https://twitter.com/NoContextBrits/status/1759212202853040265

https://openai.com/research/video-generation-models-as-world-simulators

本文来自微信公众号:AI前线 (ID:ai-front),作者:褚杏娟

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
(0)
上一篇 2024年2月20日
下一篇 2024年2月20日

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日