OpenAI站在谷歌的肩膀上，用谷歌的技术刷屏

2024年2月19日 09:53 • 未来科技

有人猜测，OpenAI如此匆忙地发布Sora的演示视频，就是为了向世界证明OpenAI才是AI行业的领先公司，因为就在几小时前，谷歌才发布了Gemini。

股民们在OpenAI发布Sora后，感觉下一个AI风口就在眼前，有机构连夜盘点了国内视频生成相关的公司，甚至出现了Sora概念股。

图/OpenAI

除了以上这些创新，OpenAI在训练Sora上，也遵循了大力出奇迹的传统，也就是加计算量。

硅基君这几天可算是被OpenAI的视频生成模型Sora狠狠地刷了一通屏。

明明还没有正式开放，但在国内外社交平台上，几乎每一个Sora放出的Demo视频都能被翻来覆去讨论。

大家对Sora的崇拜，甚至到了拿一个上古时代的互联网经典视频出来，都说它是Sora生成的，还要贴心地配上一个简单的prompts。

在没有人关注的小角落里，谷歌发布的Gemini 1.5 Pro没能溅起一点水花。

有人猜测，OpenAI如此匆忙地发布Sora的演示视频，就是为了向世界证明OpenAI才是AI行业的领先公司，因为就在几小时前，谷歌才发布了Gemini 1.5 Pro。

从热度上来看，谷歌输得一塌糊涂。

当然，和以往一样，OpenAI发布的Sora，目前只针对部分科学家和艺术家开放，普通人想用Sora不知道要什么时候了。

但这一点也不影响全网对Sora的热烈讨论，Sora发布后的48小时内，科技大佬、卖课的、炒股的、创业的都“疯了”。

首先是科技大佬们对Sora发表了自己的看法。

360总裁周鸿祎认为，Sora意味着AGI实现将从10年缩短到两三年。OpenAI的Sora可以吊打Pika和Runway，原因在于人才密度。OpenAl利用它的大语言模型优势，把LLM和Diffusion结合起来训练，让Sora实现了对现实世界的理解和对世界的模拟两层的能力等等。

Meta首席AI科学家杨立昆并不怎么看好Sora，他在Twitter上表示一个AI模型可以生成逼真的视频，但并不代表这个AI可以理解世界。

与周鸿祎和杨立昆的长篇大论不同，马斯克简单明了：人类要完蛋了。

股民们在OpenAI发布Sora后，感觉下一个AI风口就在眼前，有机构连夜盘点了国内视频生成相关的公司，甚至出现了Sora概念股。

图/财联社

与股民的热情不同，一些影视从业人员表示，自己的工作岌岌可危。

据蓝鲸财经报道，中国香港青年导演朱智立表示：“它（Sora）对电影行业的影响只是一个时间问题，因为它已经把画面做到非常真实、有细节，包括一个女人在东京街头的画面，连脸上的雀斑都能做到非常真实。”

“Sora对宣传片、广告片的影响会更大。”朱智立觉得，“电影还有剧本、情节、台词等复杂因素，而在广告、宣传片行业，冲击可能会更快到来。如果提示词可以细节到分镜，那AI不仅仅是帮助导演画分镜和视觉参考图了，而是直接可以做成更高效的动态分镜预览，或者等技术更成熟时可以直接用来做成影视作品。”

无论是科技大佬的分析预判，还是股民的热情，影视从业者的担心，硅基君都表示理解，但唯一不合理的就是Sora刚发布，连排队内测都没开启，OpenAI还没靠Sora赚到钱，就有人开始卖课了？

技术来来去去，卖铲子永不过时。

话说回来，Sora之所以能引起广泛的讨论，原因在于它生成的视频质量真的太好了。为什么Sora效果那么好，技术上有什么特别的吗？根据OpenAI发布的Sora技术白皮书，我们可以略知一二。

先上一个大瓜，Sora的视频生成模型框架，很可能是谷歌DeepMind之前的论文成果。

简单来说，Sora模型效果很好的关键在于，OpenAI训练的时候，将扩散模型（diffusion model）和transformer相结合。

OpenAI训练GPT这类大语言模型的时候，把句子拆分成tokens，放到transformer进行训练。在Sora中，OpenAI将不同尺寸、分辨率的视频拆分成patch，把patch当作tokens放到transformer进行训练。训练完成后再通过解码，把tokens“渲染成”人们可以看得懂的像素。

图/OpenAI

这一技术，来源于谷歌DeepMind和谢赛宁的论文成果。

硅基君搜了一下这篇论文的另一个作者William Peebles，他现在居然就是领导OpenAI Sora项目的负责人。

好家伙，这手背刺玩得6。

硅基君又往前找了一下，不知道大家还记不记得年初谷歌发布的videopoet这个视频生成模型。videopoet也是一个基于大语言模型生成视频。

其中的MAGVIT v2技术源于论文Language Model Beats Diffusion: Tokenizer is Key to Visual Generation，从论文名字中，我们就可以看到，作者对OpenAI Sora采用的模型框架的讨论。

当然，OepnAI基于谷歌那篇论文技术的基础上，还做了不少创新。据Sora的技术白皮书透露，OpenAI利用GPT训练了一个模型，将简短的用户prompts转换为更长的详细prompts，从而让生成的视频更符合用户需求。这一技术早些时候用于DALL·E 3 上。

比如说，咱们输入“带笑容的女人视频，时尚风格”，在Sora眼中可能就会变成：“走在时尚之都巴黎香榭丽大街上的女人笑得非常开心，眼睛里充满了喜悦。她穿着时髦的服装，凸显了她的曲线，头发也梳得恰到好处，衬托出她的容貌。”

在训练数据采样方式上，OpenAI更加开放，以往的视频生成模型的训练数据大多是切割成方形的，但Sora直接采用原生视频数据进行采样。这一方法，也让Sora拥有了在保证主体一致的情况下，生成不同分辨率视频的能力。

比如技术白皮书中展示的乌龟和海底场景，仔细看不同尺寸的视频中，乌龟还是那个乌龟，海底的环境也很类似。

图/OpenAI

除了以上这些创新，OpenAI在训练Sora上，也遵循了大力出奇迹的传统，也就是加计算量。

可以发现，4倍计算量下的Sora生成的视频和Pika、Runway、videopoet在效果上类似。但当计算量来到32倍后，Sora生成的视频质量有明显提高。

大模型真的是一个大力出奇迹的行业吗？怪不得OpenAI的CEO奥特曼想花重金（7万亿美元）投资芯片了。

看到这里，不知道观众老爷们有没有这样的感觉，OpenAI发布Sora爆火的背后，满满都是谷歌的影子。

其实这样的事情已经不是第一次发生了。

在《这就是ChatGPT》一书中，介绍了发现大语言模型在规模数据后产生涌现现象的谷歌研究员Jason Wei跳槽到OpenAI，并抢先Anthropic Claude一步，推出ChatGPT火遍全网的故事。

类似的故事还有不少。

比如，谷歌推出transform这一奠定大模型基础的技术后风光无限，但却被OpenAI用大规模训练数据截胡，率先推出了大语言模型GPT-3。从此人们说到大模型，首先会想到OpenAI。

之后，掀起AI浪潮的ChatGPT，其前身InstructGPT用到的instruction tuning技术，也是谷歌于2021年发表的，但谷歌直到2022年才开始重视。

如果把谷歌和OpenAI拟人化，谷歌像一个清高的科学家，不断突破创新，带来一个个新的技术。而OpenAI则像一个项目经理，哪个技术好就拿来用了。

可以说，OpenAI站在谷歌的肩膀上，用谷歌的技术刷屏。

本文来自微信公众号：新硅NewGeek（ID：XinguiNewgeek），作者：董道力，编辑：张泽一，视觉设计：疏睿

声明：该内容为作者独立观点，不代表新零售资讯观点或立场，文章为网友投稿上传，版权归原作者所有，未经允许不得转载。新零售资讯站仅提供信息存储服务，如发现文章、图片等侵权行为，侵权责任由作者本人承担。如对本稿件有异议或投诉，请联系：wuchangxu@youzan.com

Like (0)

四年累亏74亿、300加盟商退出，KK集团四闯IPO

Previous 2024年2月19日

魅族停止传统智能手机新项目，2024年手机狂“卷”AI？

Next 2024年2月19日

水温80度：AI行业真假繁荣的临界点

我们从来没拥有过这么成功的AI主导的产品。

（这种分析统计并不那么准，但大致数量级是差不多的）

这两个产品碰巧可以用来比较有两个原因：

一个是它们在本质上是一种东西，只不过一个更通用，一个更垂直。

蓝海的海峡

未来成功的AI产品是什么样，大致形态已经比较清楚了，从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时“罢工”，全网打工人都慌了

美西时间午夜12点开始，陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载，忽然无法正常工作了。

因为发现AI用久了，导致现在“离了ChatGPT，大脑根本无法运转”。”

等等，又不是只有一个聊天机器人，难道地球离了ChatGPT就不转了。

大模型连崩原因猜想，谷歌躺赢流量激增6成

GPT归位，人们的工作终于又恢复了秩序。

未来科技 2024年6月5日
ChatGPT宕机8小时，谷歌Gemini搜索量激增60%

ChatGPT一天宕机两次

谷歌Gemini搜索量激增近60%

ChatGPT在全球拥有约1.8亿活跃用户，已成为部分人群工作流程的关键部分。

过去24小时内提交的关于OpenAI宕机的问题报告

图片来源：Downdetector

ChatGPT系统崩溃后，有网友在社交媒体X上发帖警告道：“ChatGPT最近发生的2.5小时全球中断，为我们所有依赖AI工具来支持业务的人敲响了警钟。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时大崩溃，AI集体罢工让全网都慌了

接着OpenAI也在官网更新了恢复服务公告，表示“我们经历了一次重大故障，影响了所有ChatGPT用户的所有计划。Generator调查显示，在ChatGPT首次故障后的四小时内，谷歌AI聊天机器人Gemini搜索量激增60%，达到327058次。

而且研究团队表示，“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关，显示出用户把Gemini视为ChatGPT的直接替代选项。

未来科技 2024年6月5日
深度对话苹果iPad团队：玻璃的传承与演变

iPad最为原始的外观专利

没错，这就是iPad最初被设想的样子：全面屏，圆角矩形，纤薄，就像一片掌心里的玻璃。

2010年发布的初代iPad

好在乔布斯的遗志，并未被iPad团队遗忘。

初代iPad宣传片画面

乔布斯赞同这一想法，于是快速将资源投入平板电脑项目，意欲打造一款与众不同的「上网本」，这就是iPad早年的产品定义。

iPad进化的底色

苹果发布会留下过很多「名场面」，初代iPad发布会的末尾就是一例。

未来科技 2024年6月5日
底层逻辑未通，影视业的AI革命正在褪色…

GPT、Sora均为革命性产品，引发了舆论风暴，但它在上个月发布的“多模态语音对谈”Sky语音，却由于声音太像电影明星斯嘉丽·约翰逊，被正主强烈警告，被迫下架。

华尔街日报也在唱衰，认为“AI工具创新步伐正在放缓，实用性有限，运行成本过高”：

首先，互联网上已经没有更多额外的数据供人工智能模型收集、训练。

03、

如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向，那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

但分歧点正在于此，电影公司希望通过使用AI技术来降低成本，但又不希望自己的内容被AI公司所窃取。

未来科技 2024年6月5日
KAN会引起大模型的范式转变吗？

“先变后加”代替“先加后变”的设计，使得KAN的每一个连接都相当于一个“小型网络”，能实现更强的表达能力。

KAN的主要贡献在于，在当前深度学习的背景下重新审视K氏表示定理，将上述创新网络泛化到任意宽度和深度，并以科学发现为目标进行了一系列实验，展示了其作为“AI+科学”基础模型的潜在作用。

KAN与MLP的对照表：

KAN使神经元之间的非线性转变更加细粒度和多样化。

未来科技 2024年6月5日
这个国家，也开始发芯片补贴了

//mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
[4]中国安防协会：欧盟批准430亿欧元芯片补贴计划：2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
[6]潮电穿戴：印度半导体投资大跃进，一锤砸下1090亿，政府补贴一半.2024.3.5https。

未来科技 2024年6月5日
大模型的电力经济学：中国AI需要多少电力？

这些报告研究对象（数字中心、智能数据中心、加密货币等）、研究市场（全球、中国与美国等）、研究周期（多数截至2030年）各不相同，但基本逻辑大同小异：先根据芯片等硬件的算力与功率，计算出数据中心的用电量，再根据算力增长的预期、芯片能效提升的预期，以及数据中心能效（PUE）提升的预期，来推测未来一段时间内智能数据中心的用电量增长情况。

未来科技 2024年6月5日
你正和20万人一起接受AI面试

原本客户还担心候选人能否接受AI面试这件事，但在2020年以后，候选人进行AI面试的过程已经是完全自动化的，包括面试过程中AI面试官回答候选人的问题，AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

以近屿智能与客户合作的校验周期至少3年来看，方小雷认为AI应用不太可能一下子爆发，包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

未来科技 2024年6月4日

OpenAI站在谷歌的肩膀上，用谷歌的技术刷屏

相关推荐