Sora训练数据疑暴露，网友：绝对用了UE5

2024年2月25日 16:38 • 未来科技

另外比较惊艳的还有一头大眼睛、长睫毛、口喷冷气的小白龙，就是下面这位：

您目前设备暂不支持播放

有人尝试用同样的prompt在DALLE·3上画画，得到的结果是这样的：

就，还挺神似。

也有一位前谷歌工作人员对Sora这次的新视频进行了在线锐评：

Sora这效果，我真的认为需要3D引擎+生成式AI结合，才能实现这样的一致性和视频质量。

好消息，好消息，真·Sora视频上新了！走过路过不要错过！（不用苦苦等候，或撑大眼睛费劲吧啦鉴别真假Sora产品了。）

就在过去短短几个小时里，包括Bill Peebles、Tim Brooks两位负责人在内的工作人员唰唰唰N连发。

（好了好了，知道你们是好朋友）

不仅有多视角、新功能展现，最重要的是，各个视频的呈现效果依然处于令人惊叹的段位。

比如Go Pro视角下潜水去探索沉船。

比如下面这段视频，效果跟此前写实、逼真的画风有点不一样。

而且Sora产出的是同一片段的不同视角画面。

它的提示词是：精心制作的立体模型，描绘了日本江户时代的宁静场景。传统的木结构建筑。一个孤独的武士，穿着复杂的盔甲，缓慢地穿过城镇。

另外比较惊艳的还有一头大眼睛、长睫毛、口喷冷气的小白龙，就是下面这位：

有人尝试用同样的prompt在DALLE·3上画画，得到的结果是这样的：

就，还挺神似！但Sora小白龙的效果让某种声音越来越大，那就是：

好家伙，我一眼就看出这玩意儿有虚幻引擎的影子！

不过，这波视频还是惹得网友们“wow wow”地不停惊叹，怎么Sora的每波视频效果都越来越好了？

我的天爷啊，等Sora公测开放等得大家一天只能吃下三顿饭了！

有的网友超级激动，已经在知名新产品挖掘平台ProductHunt上给Sora的API占好了坑。

万事俱备，只欠东风。

官方新视频再流出

首先来看看Sora这波上新，此次最惊艳的是由玻璃制成的乌龟，日落时分在沙滩上爬行。

不过也有细心的网友发现：“我只看到了三条腿…”“前面两条腿更像乌龟的脚蹼”

而在Midjourney上使用相同的提示，效果是这样的。

另外，多个视角展现也成为了此次上新的亮点。

比如在夏威夷玩跳伞。

提示词：a man BASE jumping over tropical hawaii waters. His pet macaw flies alongside him.

（一名男子在夏威夷热带海域进行低空跳伞，他的宠物金刚鹦鹉与他并肩飞翔。）

甚至还有F1赛车手的视角。

此外，Sora还暴露了一些类似剪辑的新功能——无缝衔接。

此前看到，它能通过文本、图像或视频输入对模型进行提示。

如今发现，它还可以在两个输入视频之间逐渐进行插值。两个毫不相干的Sora视频，结果无缝过渡成了新视频。

咳咳，不过水下为啥会有蝴蝶？

任意尺寸比例生成，此次新视频也得到了展现。

不过由于悉数都是Sora团队成员发布的视频，有网友觉得，除非有个非OpenAI工作人员才测试，不然Sora就是个vaporware（雾件）。

这些案例中，也有被认为翻车的……

提示词：a dark neon rainforest aglow with fantastical fauna and animals.

（黑暗的霓虹雨林，闪烁着奇幻的动物和动物的光芒。）

网友表示：为什么会是矢量动画的风格，提示中根本并没有这样的提示。

这是我见过Sora最糟糕的例子。

“我不是专家，但这绝对用了UE5”

与此同时，关于Sora所生成视频的讨论重心，逐渐从“这不符合物理世界的规律”，转移到更深层次：关于其背后训练数据来源的讨论。

现在的民间主流说法（doge）是：这绝对用了3D引擎/UE5来训练的！

英伟达科学家、大家伙熟悉的老盆友Jim Fan老师就在首日猜测过，称Sora虽然没有明确表示调用了UE5，但极有可能把用UE5生成的文本、视频当作合成数据，添加到自个儿的训练集中。

也有一位前谷歌工作人员对Sora这次的新视频进行了在线锐评：

Sora这效果，我真的认为需要3D引擎+生成式AI结合，才能实现这样的一致性和视频质量。事实证明，就是得要更多的数据和计算……

倒不是Jim Fan等人的一家之言。早在第一波Sora视频亮相时，这种声音就第一时间起来了，声量还很不小。

再多举个例子。一位从事数据科学和ML的推友罗列出了自己站队这种观点的“证据”。

他亮出的牌是漫步樱花街头的那段视频。

然后配文道：“视频中移动的人似乎与UE5演示中的人类的移动方式非常相似。现实中的人走路逛街，并不会老用一个恒定的速度。”

也有人质疑这种说法，毕竟Youtube等互联网上拥有数十亿（可能还不止）小时的视频片段，干啥要用虚幻引擎来增加工作量呢？

于是就有人把“汽车行驶”的视频片段丢到上面这位推友小哥面前，说这看起来也不像是用了3D引擎搞的呀！

小哥友好地嘚吧嘚嘚吧嘚，开始了自己的分析：

“我不是专家……但感觉UE让汽车行驶掀起的尘土，只在后轮部分有。但其实现实情况中，前轮部分也会扬起尘沙。”

当然也有不少人赞同他，附和道：

虽然不一定用的是UE5吧……但事实确实是，用数字孪生模拟可能效果和效率都更好。而且这样还能用较少的IRL数据进行更高质量的数据采样。

还有人把自己理解中Sora的pipeline都列到推特上了。

这种讨论大规模流传开后，不少人对Sora可能是“UE5+AIGC”产生的效果嗤之以鼻。

“哼！我话放在这儿，合成数据是视觉机器学习的作弊代码！！”

同时有人从这种讨论中看到了不久之后的一种可能性。

即未来的生成不是通过模拟真实物理来呈现，而是通过训练模拟物理（即现实世界）的模型来呈现。

嗯……咱就是说，谁能一口否定没有这种可能呢？

One More Thing

Sora上新视频后，有网友急冲冲去问了另一家AI视频生成头部玩家Runway的首席执行官。

“最近几个月，有发布新版本的打算吗？就是质量接近Sora的那种。”

Runway CEO冷冷回了一个词儿：better。

参考链接：

[1]https://twitter.com/minchoi/status/1761367515777695965

本文来自微信公众号：量子位（ID：QbitAI），作者：白交、衡宇

声明：该内容为作者独立观点，不代表新零售资讯观点或立场，文章为网友投稿上传，版权归原作者所有，未经允许不得转载。新零售资讯站仅提供信息存储服务，如发现文章、图片等侵权行为，侵权责任由作者本人承担。如对本稿件有异议或投诉，请联系：wuchangxu@youzan.com

Like (0)

模型上下文长度达到10000000，又一批创业者完蛋了？

Previous 2024年2月25日

机器学习里的卷积，到底是什么？

Next 2024年2月25日

水温80度：AI行业真假繁荣的临界点

我们从来没拥有过这么成功的AI主导的产品。

（这种分析统计并不那么准，但大致数量级是差不多的）

这两个产品碰巧可以用来比较有两个原因：

一个是它们在本质上是一种东西，只不过一个更通用，一个更垂直。

蓝海的海峡

未来成功的AI产品是什么样，大致形态已经比较清楚了，从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时“罢工”，全网打工人都慌了

美西时间午夜12点开始，陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载，忽然无法正常工作了。

因为发现AI用久了，导致现在“离了ChatGPT，大脑根本无法运转”。”

等等，又不是只有一个聊天机器人，难道地球离了ChatGPT就不转了。

大模型连崩原因猜想，谷歌躺赢流量激增6成

GPT归位，人们的工作终于又恢复了秩序。

未来科技 2024年6月5日
ChatGPT宕机8小时，谷歌Gemini搜索量激增60%

ChatGPT一天宕机两次

谷歌Gemini搜索量激增近60%

ChatGPT在全球拥有约1.8亿活跃用户，已成为部分人群工作流程的关键部分。

过去24小时内提交的关于OpenAI宕机的问题报告

图片来源：Downdetector

ChatGPT系统崩溃后，有网友在社交媒体X上发帖警告道：“ChatGPT最近发生的2.5小时全球中断，为我们所有依赖AI工具来支持业务的人敲响了警钟。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时大崩溃，AI集体罢工让全网都慌了

接着OpenAI也在官网更新了恢复服务公告，表示“我们经历了一次重大故障，影响了所有ChatGPT用户的所有计划。Generator调查显示，在ChatGPT首次故障后的四小时内，谷歌AI聊天机器人Gemini搜索量激增60%，达到327058次。

而且研究团队表示，“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关，显示出用户把Gemini视为ChatGPT的直接替代选项。

未来科技 2024年6月5日
深度对话苹果iPad团队：玻璃的传承与演变

iPad最为原始的外观专利

没错，这就是iPad最初被设想的样子：全面屏，圆角矩形，纤薄，就像一片掌心里的玻璃。

2010年发布的初代iPad

好在乔布斯的遗志，并未被iPad团队遗忘。

初代iPad宣传片画面

乔布斯赞同这一想法，于是快速将资源投入平板电脑项目，意欲打造一款与众不同的「上网本」，这就是iPad早年的产品定义。

iPad进化的底色

苹果发布会留下过很多「名场面」，初代iPad发布会的末尾就是一例。

未来科技 2024年6月5日
底层逻辑未通，影视业的AI革命正在褪色…

GPT、Sora均为革命性产品，引发了舆论风暴，但它在上个月发布的“多模态语音对谈”Sky语音，却由于声音太像电影明星斯嘉丽·约翰逊，被正主强烈警告，被迫下架。

华尔街日报也在唱衰，认为“AI工具创新步伐正在放缓，实用性有限，运行成本过高”：

首先，互联网上已经没有更多额外的数据供人工智能模型收集、训练。

03、

如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向，那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

但分歧点正在于此，电影公司希望通过使用AI技术来降低成本，但又不希望自己的内容被AI公司所窃取。

未来科技 2024年6月5日
KAN会引起大模型的范式转变吗？

“先变后加”代替“先加后变”的设计，使得KAN的每一个连接都相当于一个“小型网络”，能实现更强的表达能力。

KAN的主要贡献在于，在当前深度学习的背景下重新审视K氏表示定理，将上述创新网络泛化到任意宽度和深度，并以科学发现为目标进行了一系列实验，展示了其作为“AI+科学”基础模型的潜在作用。

KAN与MLP的对照表：

KAN使神经元之间的非线性转变更加细粒度和多样化。

未来科技 2024年6月5日
这个国家，也开始发芯片补贴了

//mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
[4]中国安防协会：欧盟批准430亿欧元芯片补贴计划：2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
[6]潮电穿戴：印度半导体投资大跃进，一锤砸下1090亿，政府补贴一半.2024.3.5https。

未来科技 2024年6月5日
大模型的电力经济学：中国AI需要多少电力？

这些报告研究对象（数字中心、智能数据中心、加密货币等）、研究市场（全球、中国与美国等）、研究周期（多数截至2030年）各不相同，但基本逻辑大同小异：先根据芯片等硬件的算力与功率，计算出数据中心的用电量，再根据算力增长的预期、芯片能效提升的预期，以及数据中心能效（PUE）提升的预期，来推测未来一段时间内智能数据中心的用电量增长情况。

未来科技 2024年6月5日
你正和20万人一起接受AI面试

原本客户还担心候选人能否接受AI面试这件事，但在2020年以后，候选人进行AI面试的过程已经是完全自动化的，包括面试过程中AI面试官回答候选人的问题，AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

以近屿智能与客户合作的校验周期至少3年来看，方小雷认为AI应用不太可能一下子爆发，包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

未来科技 2024年6月4日

Sora训练数据疑暴露，网友：绝对用了UE5

相关推荐