OpenAI CTO:普通人数月后就能用Sora了

穆拉蒂表示,OpenAI目前正在探索如何使Sora成为可以用户可以用来编辑或创作内容的工具。

穆拉蒂表示,OpenAI目前还没有明确决定Sora可以生成的视频范畴,但是会借鉴其文生图模型DALL-E的做法,比如不会生成政治人物的形象。

也许当用户可以用Sora制作一部关于“事变”的“内幕电影”时,OpenAI就不用回答这个问题了。

OpenAI似乎已经在为Sora降世预热了。

当地时间3月13日周三,OpenAI首席技术官米拉·穆拉蒂(Mira Murati)接受了《华盛顿邮报》的视频专访。

视频不长,只有不到11分钟,但全部围绕OpenAI的文字到视频工具Sora,穆拉蒂透露了一个重要的消息。当被问及Sora何时面向公众推出时,穆拉蒂回答:“我想肯定是在今年,但可能是几个月后。”

除此之外,穆拉蒂还回答了Sora的特别之处、如何修正瑕疵、是否会包含音频、训练数据来自哪里等若干问题。给出的答案有的笼统,有的不乏诚意。

距离OpenAI突然展示Sora,已经过去一个月了。Sora演示视频的时长和效果惊艳世人,迅速成为舆论宠儿。但Sora也带来太多问号:没有明确的发布时间、只对少数人开放测试、对训练数据来源三缄其口。

但现在,OpenAI似乎在一点点释放更多信息。

作为OpenAI最重要的高管之一,穆拉蒂的话自有其分量。而就在前几天,Sora的三位核心团队成员也出现在科技播客WVFRM中,接受了专访。

此外,另一档头部播客主理人Lex Fridman也已经官宣将很快邀请OpenAI的CEO山姆·奥特曼(Sam Altman)上节目,正在征集粉丝关心的问题。上次奥特曼出现在这档播客中是一年前,GPT-4发布后不久。

也许Sora降世,真的已经进入最后的倒计时。

有些问题,穆拉蒂乐于回答。

在这次的专访中,主持人拿出了几个Sora生成的视频,并对穆拉蒂进行了提问。

一个不可忽略的问题是,Sora为什么效果那么好?对于一则“两个职业女性,30多岁,坐在一个灯光明亮的工作室中接受新闻采访”的指令,主持人尝试了Sora和Runway两个产品。Sora生成的视频几乎可以以假乱真,但Runway的视频则不仅有奇怪且数量过多的手指,且在动作时有明显的嘴部扭曲,看起来颇为诡异。

穆拉蒂解释,Sora基于扩散模型,通过分析大量视频学习识别物体和动作。当给定文本提示时,Sora能通过定义时间线和逐帧添加细节来创建场景,生成的视频在平滑度和现实感方面很出色。

但主持人也把一些有明显瑕疵的视频摆在穆拉蒂面前,比如行进中的汽车突然从黄色变成了银色,或者Sora没有按照指令生成“机器人夺过摄像机”的画面,而是让机器人把那摄影机的女人直接融合了。

穆拉蒂表示,OpenAI目前正在探索如何使Sora成为可以用户可以用来编辑或创作内容的工具。翻译一下就是:Sora不完美,在想办法了。

对于另一个外界关心的问题,即Sora会不会包含音频(Sora目前的视频都是无声的),穆拉蒂也透露了一些信息——目前还没有整合音频,但这是OpenAI会考虑的方向。

与此同时,针对外界对安全的担忧,穆拉蒂也没有回避。

穆拉蒂表示,OpenAI目前还没有明确决定Sora可以生成的视频范畴,但是会借鉴其文生图模型DALL-E的做法,比如不会生成政治人物的形象。当主持人问及裸体画面时,穆拉蒂表示不确定,艺术家可能会希望有一些可以调控的创作选项,目前OpenAI正在与不同领域的艺术家和创作者合作,试图搞清楚Sora应该提供什么水平的灵活度。

至于对于“现实不存在”的恐惧,即人们将难以区分真实与AI内容,穆拉蒂回答这正是OpenAI还未部署Sora的原因。目前,Sora生成的视频都会打上水印,但这似乎还不够好。穆拉蒂透露,Sora的视频将包含元数据来表明来源。OpenAI也用安全人员测试Sora,试图引出漏洞、偏见及其他有害结果。

作为OpenAI的CTO,穆拉蒂强调对于安全问题的重视。她表示“金钱”和“安全”并不是一道难做的选择题,如何解决安全和社会问题才是让她睡不着觉的难题。

不过,也有穆拉蒂不太想触碰的话题。

在外界都关心的训练数据来源问题上,不仅Sora团队接受专访时表示不方便说得太细,穆拉蒂也再一次打了太极。

主持人在测试Sora时发现了有趣的细节。比如在“海底珊瑚礁中,一只美人鱼和一只螃蟹助手在一起评论一部智能手机”的视频里,在没有相关提示词的情况下,螃蟹有长条状的双眼和两撮胡子,酷似动画片《海绵宝宝》里的蟹老板;另一则公牛在瓷器商店里的视频,公牛的形象则也酷似《公牛历险记》里的。

问:有没有用YouTube上的视频?

穆拉蒂答:我其实不确定。

问:好吧。那Instagram和Facebook上的视频呢?

穆拉蒂答:如果这些视频是公开可用的,那可能在训练数据里。但我不确定。

总之,别问,问就是不知道、不明白、不清楚、不确定,问就是也许吧、可能是、看情况。

穆拉蒂倒是确认了Sora的训练数据包含图片网站Shutterstock的内容。这没什么意外的,去年7月,Shutterstock就宣布把和OpenAI的合作延长六年,允许后者使用其平台内的图片、视频、音乐来训练AI模型。

对于训练数据的来源问题,OpenAI保持谨慎在意料之中。

自ChatGPT面世,OpenAI已经多次因训练数据版权问题惹上麻烦。最近的是今年《纽约时报》以侵犯版权为由起诉OpenAI及其合作伙伴微软,随后多家数字新闻媒体加入起诉OpenAI侵权的队伍。此外,还有数名演员、记者、作家以及美国作家协会对OpenAI提出诉讼,称该公司的大型语言模型参与了“大规模的系统盗窃”。

更糟糕的是,Sora还没有面向公众推出,就已经被监管机构盯上。近日,意大利数据保护机构Garante发布公告,称已对Sora展开调查,内容包括Sora的算法训练方式、训练过程中手机和使用了哪些数据等。意大利数据保护机构是欧洲各国中最活跃的监管机构之一。

训练数据来源、安全问题都备受瞩目,再加上2024年是美国大选之年,重重阻碍摆在Sora面前,OpenAI也着急。

一方面,OpenAI急于重申其在AIGC领域的领先地位。

就在3月初,硅谷AIGC独角兽、OpenAI的劲敌Anthropic推出新一代大语言模型Claude 3系列。其中最智能的Opus已经在多项基准测试中打败GPT-4。甚至在发布后不久,Claude 3已经具备意识的传闻就在网络上蔓延。

也许是感觉到了压力,OpenAI的GPT-4.5 Turbo产品页面一度悄然出现在多个搜索引擎中,疑似要提前发布(原定今年6月)。虽然链接已经在消息被传出后下架,但奥特曼也在X社交平台上回复一条催促OpenAI尽快发布新产品的消息下回复:“耐心点,这值得等待。”让外界更加期待。

此外,微软在3月13日宣布,将免费版Copilot升级到GPT-4 Turbo模型。去年11月OpenAI宣布推出GPT-4 Turbo,微软彼时将其接入Copilot,但仅供订阅用户使用,每月20美元。

若GPT-4.5 Turbo提前发布,Sora又在不久的将来与公众见面,将成为OpenAI的完美组合拳。

另一方面,OpenAI也需要公众注意力重新聚焦在其产品上。

过去的几周,马斯克起诉OpenAI,称其违背了创始协议,并请求法院令其开源。一不做二不休,马斯克甚至开源自家xAI公司的大模型产品Grok,再次将OpenAI推向不仁不义不Open的尴尬处境当中。

OpenAI已经对此事做了公开回应,并且提交了法律文件。此外,OpenAI还恰逢其时地公布了对于去年年底OpenAI“高层事变”的调查结果。

在那场高层震荡中,奥特曼被踢出董事会并卸任CEO,又在三日内归来,几乎重新组建了董事会。马斯克在起诉书中将该事件描绘成了一场阴谋,称奥特曼的新董事会缺乏专业背景,为了和微软的合作关系永远不会宣布AGI(通用人工智能)的到来。

OpenAI给出的调查结果认为事件只是出于旧董事会和奥特曼的信任问题,与此同时公司宣布四名新董事会成员。其中奥特曼再次进入董事会,其他新成员也不乏技术背景,间接驳斥了马斯克在诉状中的“阴谋论”。

OpenAI想要给去年的闹剧盖棺定论,但“OpenAI变CloseAI”的梗依然在网络流传,人们对该事件的关注犹在。

在Lex Fridman宣布将再度邀请奥特曼参加其播客节目的消息评论区,粉丝最关心的问题依然是:曾被媒体报道为出于对AGI的恐惧而推动“事变”的伊利亚·苏茨克维(Ilya Sutskever)去哪儿了?他到底知道什么秘密?

也许当用户可以用Sora制作一部关于“事变”的“内幕电影”时,OpenAI就不用回答这个问题了。

本文来自微信公众号:字母榜(ID:wujicaijing),作者:毕安娣

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
Like (0)
Previous 2024年3月14日
Next 2024年3月14日

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日