OpenAI用Sora打脸AI顶会CVPR

更重要的是,这篇被CVPR认为创新性不足的论文,正是今天名声大噪的Sora的底层技术。

那么问题来了,被计算机视觉顶级会议CVPR认为缺乏创新性的技术,OpenAI却给小哥大量的资源,让其做出了text。

而CVPR的评委审查论文,以及OpenAI决定砸钱砸显卡做Sora这个项目的时候,这个技术的未来到底是怎么样,是未知的。

本文来自微信公众号:飞总聊IT(ID:feiitworld),作者:飞总本尊,题图来自:视觉中国

这几天关于Sora的传闻很多。

其中有这样一件事情,非常的有意思,飞总给大家八卦一下。

故事从下面这个小哥说起:

截图自:LinkedIn@William Peebles

这个名字叫做William Peebles的人,是2023年5月才毕业的计算机PhD。他毕业于加州大学伯克利分校,研究方向是AI。

这个小哥的LinkedIn上的介绍很简单:

截图自:LinkedIn@William Peebles

没错,这几天火到出圈,火出天际的Sora,这位小哥就是领导者之一。

毕竟Co-leading Sora这样的话,不是一般人可以随便写上去的。

而这位小哥,2023年5月才PhD毕业。2024年2月,Sora已经火爆全网,彻底出圈了。

这年纪,这成就,这火爆程度。我们是应该说OpenAI确实不拘一格使用人才呢,还是应该说这个小哥太牛了。

不过我相信,再牛,如果换个公司,比如微软什么的,这个小哥想一毕业就领导Sora这么牛的项目,简直无法想象。

上面肯定有一堆堆的资深人士,绝对不可能给资源给显卡让这个小哥如此轻松地霍霍。

那么问题来了, 为什么我标题上说OpenAI用Sora打脸CVPR呢?

这个故事要从一篇论文说起。论文标题是“Scalable Diffusion Models with Transformers”。这篇论文发表在ICCV 2023上。

ICCV也是个很不错的会议,在计算机视觉领域和CVPR比起来,差距不大。

而根据网上传出来的消息,这篇论文首先投稿的是CVPR 2023,被评委们以创新性不足给拒绝了。之后论文才转投了ICCV 2023。

更重要的是,这篇被CVPR认为创新性不足的论文,正是今天名声大噪的Sora的底层技术。

当然,毫无疑问,Sora肯定做了各种各样的改进。但是其底层的技术基于Diffusion Transformer这个基本事实是无法改变的。

小哥William Peebles肯定是Diffusion Transformer领域的大牛,毕竟这个领域就是他在做。他在PhD期间一直都在做。

那么问题来了,被计算机视觉顶级会议CVPR认为缺乏创新性的技术,OpenAI却给小哥大量的资源,让其做出了text to video的Sora项目。

到底是OpenAI的负责人们傻,还是CVPR的评委们傻呢?

你要按照今天的逻辑去看,显然Sora名声大噪,而CVPR评委说的缺乏创新性貌似确实有点问题。

可是事情不能这么看,我们现在是以上帝视角,去拿着已经出结果的未来检视当初。

而CVPR的评委审查论文,以及OpenAI决定砸钱砸显卡做Sora这个项目的时候,这个技术的未来到底是怎么样,是未知的。

显然,OpenAI和CVPR的评委们,做了截然不同的预测。前者觉得值得砸钱,后者觉得没什么创新性。

但是问题来了,学术圈的“创新性”,到底意义有多大?到底是学术圈自娱自乐的产物,还是真的有现实的意义。

要这么来说的话,GPT-1和GPT-2的表现没有好于其他的模型,但是GPT的模型规模上来以后,显然就展现出了令人吃惊的成果。

而在GPT-1和GPT-2都不怎么样的情况下,OpenAI依然坚持GPT的技术路线,这是为什么?

我以前读过PhD,写过论文,后来也混产业。我发现的一个问题是,学术圈里面自娱自乐的东西很多,有些研究,到了工业级,就毫无意义了。

反之亦然,工业界的人会看可行性、看规模效应怎么样,在审稿论文的时候,和学术界的人之间也会吵翻天。

屁股决定脑袋,真的是永恒不变的真理,无论是数据库圈子,还是AI圈子。

当然,今天我们要问的不是屁股和脑袋的问题。而是客观上,到底谁更靠谱。是CVPR审稿的教授们?还是OpenAI的研究人员?

不管怎么样,现在看起来,OpenAI对技术路线的判断,确实在AI领域,当之无愧的王炸。CVPR被打脸,也是真的惨。

本文来自微信公众号:飞总聊IT(ID:feiitworld),作者:飞总本尊

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
(0)
上一篇 2024年2月19日
下一篇 2024年2月19日

相关推荐

  • 波士顿动力转向纯电机器人,电动为什么是机器人唯一方向?

    几天前,波士顿动力在网上宣布,Atlas。

    一、新的:电动“Atlas”

    “Atlas。”

    但波士顿动力并非是第一家推出电动机器人的公司。的说法,Atlas“肯定需要是一个通用机器人”,但是在通用性方面还有很多工作要做,以便人形机器人能够拾取一千个不同部件中的任何一个,都能合理地处理它们,“这种普遍性尚未得到证实。

    为了向这款推动人形机器人极限的机器人致敬,波士顿动力发了一段。

    未来科技 9小时前
  • 小米造了车,红旗要造手机

    4月18日,中国一汽在微信公众号发布消息称,在当日举行的中国一汽第五届科技大会上,中国一汽与亿咖通科技签署了智能座舱战略合作协议,除了在汽车智能座舱领域展开合作外,双方还将共同打造红旗品牌高端手机。

    抢夺智能生态大单

    从一汽和亿咖通将“共同打造红旗智能座舱和红旗OS,并打造红旗品牌高端手机”的合作模式来看,在亿咖已有的合作案例中,与极星汽车的合作很可能成为与红旗合作的模板。

    未来科技 1天前
  • 号称超越GPT-4的大模型们,有多少靠的是“抄袭”

    让模型走向同质化的“数据捷径”

    “如果所有人都用一样的数据,你又怎么会比其他人好呢。

    大家都知道,在大模型训练过程中,数据至关重要,并且在不同阶段的侧重点也有所差异。

    在训练基座模型时,数据追求的是“量”,对算力要求也是极高,它决定了大模型对事物的基本“理解能力”。

    如果按这个标准,现有的高质量文字数据和图像数据加起来体量根本不够,还差。

    未来科技 1天前
  • 中国互联网三十周年,那些陨落的流星

    2015年,一个叫戴威的25岁北大青年,受Uber共享春风的吹拂,买了20串羊肉串,拜托中文系师弟写了一封振奋人心的公开信《这2000名北大人要干一票大的》。或将转型SNS交友网站》中关村在线
    《1286天,熊猫直播从生到死》澎湃新闻
    《天涯创始人首度回应关停:不会放弃,用户数据不会丢》新黄河
    《西祠胡同终成“死胡同”,论坛兴衰史再添一员》三易生活
    《十年前,那些我们曾迷恋过的网站》电脑报
    《中国互联网30年,网红的前世今生》新华报业网

    本文来自微信公众号:镜相工作室(ID:shangyejingxiang),作者:郑思危,编辑:周近屿

    未来科技 1天前
  • Llama 3发布,亮点在于“小”模型

    GPT-3.5,而且需要的算力低、反应快,甚至可以在手机、电脑上本地运行,“希望大家继承这个趋势,训练和发布用更长时间训练更小的模型。架构中,要提升大模型的效果,需要按照特定比例提高训练大模型的数据量、模型本身的参数以及算力。

    想要降低成本,最直接的方法是训练参数更小的模型,让用户的手机、电脑直接在本地运行,分担平台的压力。

    怎么让更小的模型有更好的效果,成了大模型公司们的竞争焦点。

    未来科技 1天前
  • 谷歌全面整合AI力量背后:DeepMind浮沉史

    DeepMind从2016年到2019年的营收与亏损,图片来源:VentureBeat

    2019年初,三位DeepMind人工智能工程师离职,比如著名安全工程师本·劳里(Ben。

    不过知情人士称,哈萨比斯在2021年告诉DeepMind员工,在谷歌CEO皮查伊承诺提供更多资金后,在DeepMind高层被称作“马里奥计划”的分离大业就此搁置。

    未来科技 1天前
  • 拍下苹果Vision Pro最美X光图的公司,“iPod之父”也有投资

    Vision。

    Meta。

    在。分析看来,两个系列产品不分高低,其工程设计差异更多地反映了其设计理念和定位不同:

    一个是要挑战体验和设计上的极致,另一个是要在保持一定体验前提下,尽可能地让更多人用得起。

    苹果三代。光视觉”,产品设计的利器

    一看到这个扫描仪,我就说“我最快能什么时候给你们投资。

    Fadell。

    而在。

    甚至在。

    未来科技 1天前
  • 大中型上市银行加码金融大模型研发,场景广泛应用尚待时日

    竞逐金融大模型

    年报显示,工商银行在2023年度建立了行业内首个全面自主研发且具有千亿参数级别的AI大模型技术体系,并在多元金融业务场景中实现了创新性应用。

    具体来看,工商银行、建设银行、农业银行、中国银行、交通银行、邮储银行在2023年的科技投入分别为272.46亿元、250.24亿元、248.50亿元、223.97亿元、120.27亿元和112.78亿元,同比分别增长3.90%、7.45%、7.06%、3.97%、3.41%和5.88%。

    未来科技 1天前
  • 姚颂:穿过创业与投资的旋转门

    一、穿过创业与投资的旋转门 各位老师、同学们晚上好,很高兴再次回到校园与大家分享我的创业经历,最近大家比较关注的问题是未来应该做什么,创业方向是什么,对航天领域也比较感兴趣,所以我…

    未来科技 1天前
  • AI企业疯狂“卷”文本

    月之暗面公司相关负责人向记者强调,与其他公司的产品不同,Kimi的长文本是无损压缩技术的长上下文,RAG是有损压缩技术。

    他也提醒说,长文本只是大模型的一个技术特色,除了长文本之外,大模型还有高效训练、多模态、模型压缩、安全伦理等多方面的问题需要研究,“今天大家盯着长文本是好事,但也不能忘了其他,做好大模型需要多面开花。

    未来科技 1天前