“已经有三个人跟我说要做中国版Sora”

而针对OpenAI宣称sora是“世界模拟器”,图灵奖得主、Meta首席AI科学家杨立昆(YannLeCun)认为,根据提示词生成的大部分逼真视频,离“AI理解物理世界”还差得远,刷屏的视频仍有很多bug,生成视频的过程与基于世界模型的因果预测完全不同。

去年此时,很多人问,为什么中国没有产生ChatGPT,到了今年问题又变成了,为什么中国没有产生sora,在天才科学家史蒂芬·沃尔弗拉姆那本《这就是ChatGPT》的导读序中,作者建议我们把问题换成,“为什么全世界只有OpenAI能做出ChatGPT”。

先讲两个非常“中国特色”的荒诞段子:

小红书上,一位投资领域的博主称,一天内已经有三个项目方找过来说要做中国版Sora,但听起来,心态都是“看看能不能骗点钱”;

另有一图,昨日广为流传,图上标“中美两大AI巨头”。美方代表是OpenAI的CEO奥特曼,中方代表则是卖AI课赚了上亿的博主李一舟。

怎么说呢,前者未经证实,但代表了一部分人对AI创业者,乃至整个创业者群体的“刻板”印象;到了李一舟这,这种“刻板印象”终于有了明确的指摘对象,没办法,谁让人家赚钱了呢。不过到底是虚晃一枪,瞧不上的是中国AI。

调侃归调侃,当我拿这消息问几位投资人朋友时,反馈是,还没人碰到过打着中国版Sora旗号的离谱项目。我想,这可能是因为,大家还处在震惊之中,需要一点反应的时间。也可能因为,和去年ChatGPT搅动的热潮相比,今年的情况相似又不同。

对世界丧失掌控感的心态大体是相似的,不同在于,经历过去一年的洗礼,到今年,不论是创业者还是投资人都成熟了。一部分人清醒地意识到,热闹归热闹,但热闹大都是OpenAI的。

一、“霸权创业”

“我们之后大概率不会投文生视频类项目了,因为OpenAI太强了。”一家主流投资机构的朋友这样回复我。

很难说这种心态是悲观,还是认清现实后的冷静。如果回溯,类似的言论最早从去年3月GPT-4发布插件便开始了。

在《第一批投AIGC的VC开始后悔了》一文中,我写过当时典型的担忧是:是不是所有垂类的应用公司都会被基于GPT-4插件的生态取代?之前投的项目会不会黄了?今后还要不要看?

别怪写稿的人絮叨,因为类似的事情总在不断发生。去年年底,奥特曼在YC的一场演讲,又给生成式AI领域的创业者浇了一盆冷水。

他建议,应该以通用人工智能的实现为前提进行技术开发。因为GPT5可能会相对于GPT-4有指数级的跳跃,这个进展将会给初创企业和现有公司带来许多挑战。反过来说,他不建议的是,创建那些产品业务致力于解决当前GPT-4限制的内容,因为大多数限制将在GPT5中修复。

这份给创业者的指南,既诚恳,又傲慢,杀伤力极大。AI巨无霸的掌舵者在提醒创业者,不要瞎折腾,OpenAI自身的迭代很快会覆盖一批公司。

我更想到了另外一段话,来自一年前的另一个“大模型”选题,当时ChatGPT给了世界一个“小小的震撼”,也带来了一阵密集的投资风口,几乎所有人都在努力寻找能交付出类似产品的创业者,并且不吝于将寻找到的创业者塑造成神。

我本能地对当时的氛围感到警惕,于是设计了一份简单问卷,向超过30个人工智能赛道内的创业团队发出QA邀请,试图搞清楚舆论是否过热并且严重拔高了行业现状,然后收到了一份这样的答案:

我们认为人工智能这一轮的发展是不断集成人类智能的过程,在这个过程中很多流程、环节、都会吞噬,形成端到端、自动化的解决方案,最后会不可避免地形成超级智能——这些环节在上一代互联网的时代是存在独角兽公司的(所以互联网时代是一个“平权”的创业时代),但是现在没机会了——比如GPT-4出现之前很多企业做视频和图片处理,但GPT-4出来以后对他们是一个重大打击,模式是否成立都是问题。

这个答案来自集智魔方创始人徐大大。简单概括,他认为人工智能这一次的热潮很难留下太多机会,反而可能即将面临一个“霸权式创业”的时代。

而这种“霸权创业”的感受也正在完整地通过创业者传递给投资人。徐大大和很多VC接触后,发现大家目前形成的共识是创业规划要有“战略提前量”,而不是寻求“时间提前量”,因为“如果方向错了,早晚被足够的算力追上”。

具体到视频生成领域,AI投资人Magic(化名)跟我分享了一个真实案例。去年他们团队反复讨论过要不要布局一家文生视频公司,最终还是没投。

当初纠结的点在于,他们看到的国内公司现有的方案明显有性能上限,同时知道OpenAI在用更fundamental的方式解决问题,只是不知道什么时候能做出来。“说白了就是知道OpenAI会做,觉得其他公司没有戏,但没想到来得这么快。”

现有的能想到的场景OpenAI一定能想到,还能有什么新的场景出来?OpenAI的超能力令AI投资人陷入迷惘,不确定究竟该在应用层面投些什么。

谈追赶,Magic没那么乐观。他认为,国内公司与OpenAI的差距,本质在于视野、认知和工程化能力的不同,当中的差距不是任何一家公司能在短时间内弥补的。

更不用说,国内一部分公司对外宣扬的和实际情况多少存在一些水分。比如,我在某公司去年的通稿里看到如下描述——“视频生成能实现可控的内容改写与风格迁移,效果优于Runway等在内的主流模型。”

二、国内的“类Sora产品”

放眼我国近几年的科技行业,创业者们对于“类Sora产品”的尝试一直没有停止。从技术路线来看可以分为两类:

一类是由剪辑工具衍生出来的“文生视频”产品。与Sora相同,这类产品的使用逻辑十分“自然语言”,用户只需要输入文本内容,产品就能匹配上对应的视频素材生成成片,只是这类产品并不会根据文本内容原生视频素材,而是在素材库内进行调用。

时间线上,早在2020年10月知乎就推出了“一键图文转视频”,配合当时同期推出的“海盐计划”,内容视频化战争打响;2021年4月,剪映也上线了“图文成片”功能,大量创作者使用后,得出的一致结论是“感觉会干死一堆营销号”。

可以说,也正是这条技术路线的成熟,催生了这几天Sora的一个衍生话题——Sora会“杀死”剪映吗,我的编辑也建议,将 “梁茹波在字节年度大会上反省了公司内部的技术讨论直到2023年才有GPT相关议题”和“张楠在年初辞去抖音集团CEO职务,宣布将专注于剪映”联系在一起,进而得出“AI视频生成”或许是字节跳动找到的最现实也最直接的“第二增长曲线”的结论。

前字节跳动算法工程师“像素炼金师”持类似的观点。他在知乎问题“OpenAI的视频模型Sora能否颠覆影视创作”的回答里写过这样一段话:

“不要怀疑视觉模型的能力……ChatGPT的上限可以质疑,大语言模型的训练可能面临着数据的匮乏,高质量的数据早就已经全部纳入到GPT-4的训练集里了。但视觉的数据和文本不一样,我们可以几乎无限的从世界当中采集。”

第二类是由多模态大模型衍生出来的“文生视频”产品,此前让郭德纲说英语、让川普说山东话而大火的HeyGen就是其中的代表。类似的产品还包括FancyTech、Wondershare、腾讯智影,这些产品都具备用户通过“输入自然语言”生成一段视频,并且针对性地原生一部分素材的能力。

如果以更冰冷的技术视角来看,Sora又似乎有被“神化”的嫌疑,许多AI界大鳄指出,其技术壁垒似乎一定程度上被高估了。

2022年10月,谷歌曾经宣布过开发文本转视频产品Imagen Video。根据同步公开的技术论文,当时的谷歌工程师们就已经开始计划以24FPS的帧数输出1280×768高清视频,并且尝试在保留对象结构的同时“让对象结构能够完成3D旋转以及更多的画面形式”。

此时距离OpenAI发布著名的DALLE-2,仅仅只有半年的时间。

而针对OpenAI宣称sora是“世界模拟器”,图灵奖得主、Meta首席AI科学家杨立昆(YannLeCun)认为,根据提示词生成的大部分逼真视频,离“AI理解物理世界”还差得远,刷屏的视频仍有很多bug,生成视频的过程与基于世界模型的因果预测完全不同。

而同日发布的谷歌多模态模型Gemini 1.5,能持续运行100万tokens,“1小时视频、11小时音频、超过3万行代码”,我大胆揣测,由于sora以视频的方式呈现太过惊艳,才让谷歌成了汪峰,痛失头条。

今年1月,北京大学、斯坦福大学、Pika Labs联合发布了一套全新的文生图框架RPG-Diffusion Master,旨在解决文生图常常“货不对版”背后的两大难题:缺乏画面的空间引导,并且难以处理重叠的对象;基于反馈的方法需要收集高质量的反馈数据,并产生额外的训练成本。

所以很大程度上,真正让“中美AI角逐”看起来略显吃力的地方,不是创业者不努力,而是一是努力不过“钞能力”,二是如那位OpenAI的天才谢赛宁所言,人才、数据、算力,三者之间的差距,很难弥补。

由剪辑工具衍生出来的“文生视频”产品,往往背靠着巨大的内容生态。作为创作者生态的一环,这层属性的一体两面,是第三方“文生视频”产品在商业化上存在巨大的问题。

两年前我曾经收到过一份“文转视频”产品的BP,第一页旗帜鲜明地写着“做内容赛道的基建产品,成就中国最大的泛知识内容创作者平台”,核心竞争力是“行业率先的中视频素材库”“独创的智能文本区”“云协作”,融资目标相对保守地定在了500万美元。

这几天重新聊起Sora的时候,才发现他们没有挺过2023,当初发BP给我的朋友发了一个哭脸emoji,说:“一开始我们就错了”。

我忍不住追问他们的复活计划:“文生视频这一段一定要和Sora对比吗?就像文艺片存在的同时不影响爆米花电影的卖座,只要成本够低、操作门槛够低,文生视频工具似乎是有一定市场的,并不一定需要‘太智能’。”

朋友的对话框开始漫长地停留在“对方正在输入”状态。半晌,他决定回复这样两段话:“老板不看好中视频赛道,觉得XX就那水平,我们还给他们的创作者做工具就更没前途了……泛知识类视频的商业天花板可能只是亿级,而影视广告行业的商业天花板是万亿级的。”

同样的“出身困境”,也体现在多模态大模型衍生出来的“文生视频”产品中。这些产品所提供的“文生视频”功能,大部分都为明确的应用场景设计,例如电商虚拟主播、服装设计展示,进而导致他们最终输出的成品通常呈现出“半AIGC状态”——帮助用户在有限的模板下进行一定的原生。

三、还没看到产业化的可能

也不是没有乐观的声音。

“现在是整个行业技术不成熟啊,我觉得这个方向可以再跑跑,虽然Sora是SOTA的算法,但我觉得差距没大家想象的那么大,到今年年底的时候估计会接近文生图。”

当我问及文生视频在国内的前景,投了大模型公司的James(化名)这样告诉我。SOTA,全称“state-of-the-art”,用于描述机器学习中某个任务上当前最优效果的模型。

乐观或悲观,不过是大家基于自己看到的论据得出的主观结论。如果文生视频在国内有机会,不妨把问题提得再具体一点,那会是谁的机会?随着融资军备竞赛的白热化,会是现有这些大模型头部玩家之间的竞争吗?

头部大模型创业公司里,月之暗面、MiniMAX、百川智能等都在年后传出了最新一笔大额融资的消息。弹药充足,为的是应对模型迭代持续烧钱的现状,而多模态模型正是当下国内大模型的竞争点之一。

据我了解,腾讯、智谱AI等都已经在研发视频生成大模型。月之暗面也被媒体披露出正在研发通用多模态模型。

投资人的观点仍然没有定论。James判断,还是大模型公司机会大一些。Magic认为,看上去似乎是这样,变量在于国内这些大模型公司把核心任务放在了追赶GPT-4和GPT-5上,而文生视频是另一条线,肯定会做,但能给多少资源还不一定。

“如果产品能立住,不排除有独立模型开发的公司也能跑出来。”

而当着眼于实际应用,只能说,不管是国内公司,还是Sora、Runway、Pika,他们的产品距离产业化应用还有一段距离。有投资人告诉我,文生视频这件事要在中国落地,还是要关注商业化的问题,或者公司有出海的能力。

再讲一个现实的创业故事吧。出海,正是AIGC创业者吴立素给公司规划的路径。

几年前我认识他时,他还在做网剧和网大,如今他公司的主要业务放在短剧和AI,利用人工智能生成三维和平面内容。2022年夏天,他成立了人工智能机构SOLART TECH(素鳞科技),并在随后一年加入英伟达inception program、Google cloud for AI startup和Amazon的加速计划。

出于自身业务需求,而不是开一场发布会,吴立素的团队去年尝试过自研视频生成大模型,数据来源是自有版权的电影和动画片。花了几百万,他得出的结论是,投入巨大,结果却差强人意,距离产业化应用比较远。

“基于工程文件去做数据标注的精准度高,但我们数据量不大,所以生成的内容比较有限。动画部分和Pika 1.0的效果相近,但真实人物会有恐怖屋效应。”

“我们团队基本上都是会写代码的影视艺术工作者,所以开始还会有一点优势。”在他看来,去年包括Pika在内的很多团队进行画面推理还只是基于图像学研究,而今年Sora团队里的成员,有越来越多的跨专业人才能进行交叉学科研究。

架不住OpenAI大力出奇迹。吴立素决定放弃自研视频生成大模型,转向基于大模型做一些小模型。他希望结合其他技术和工具,推动产品实际落地。“国内做全视频生成的公司方向都不太一样,但多是以科研的形式在做,目前没看到有商业化或产业化的可能性。”

产业应用更多的要求是精准度,而即使是Sora的呈现也有很大的不稳定性。他打了个比方,“数学公式大家都会,但不一定所有人都能用那套公式把应用题解出来。”

至于文生视频对影视动画产业的影响,也许没想象中那么大。吴立素有计算机背景,又在中传读了数字媒体专业,此后在影视行业摸爬滚打十几年。他的判断是,文生视频目前适用于不太有特定需求的内容填充和背景画面丰富。

“传统影视动画产业里比较讲究精准度的场景和角色情绪表达,纯文字直接生成比较难得到结果,通过图像(分镜故事版)生成会更准确一点。”随着Vision Pro的上市,他也更看好未来3D市场以及3D内容和AI的结合发展的机会。

吴立素做出的另一个决定是,今年公司要出海。“因为国内用户需求增长比较慢,现在更多是卖课的人能赚到钱。”他无奈道。

“向钱看”,是不少人瞧不上中国AI的原因。一位投资人朋友对我表示,从互联网时代开始,美国的科技公司就代表科技与商业的双重突破,而国内则把重心更多放在了跟随和应用,曾经我们似乎看到了平起平坐甚至超越的可能,但到了AI时代,才发现一切都是幻觉。

去年此时,很多人问,为什么中国没有产生ChatGPT,到了今年问题又变成了,为什么中国没有产生sora,在天才科学家史蒂芬·沃尔弗拉姆那本《这就是ChatGPT》的导读序中,作者建议我们把问题换成,“为什么全世界只有OpenAI能做出ChatGPT”。

我认为方向无关对错,只跟现实土壤有关。2022年中旬,曾经有一位美元基金投资人,强烈建议我关注AI发展趋势,当时就提到了GPT等,而我却一知半解,国内更是鲜有报道,现在他转身加入一家国外的科技创业公司,按他说法,“出来躺躺”。

在那本书中,史蒂芬·沃尔弗拉姆提到了“计算不可约性原理”,“人类、AI、自然界和社会等各种计算系统具有根本的不可预测性,始终存在‘收获惊喜的可能’。人类可贵的,是有内在驱动力和内在体验,能够内在地定义目标或者意义,从而最终定义未来。”

那么不妨问问,对这种不可预测的“收获惊喜的可能”,我们到底凭什么?

本文来自微信公众号:投中网 (ID:China-Venture),作者:刘燕秋、蒲凡

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
Like (0)
Previous 2024年2月21日 13:52
Next 2024年2月21日

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日