“女儿概念股”效应：多模态或成AI应用胜负手

2023年12月2日 12:08 • 未来科技

“文生视频”是这款应用的核心功能，它与“文生图”的底层技术一致，但实现起来难度更高、成本更大，可以看作是文本生成图像的进阶版技术，两者都属于生成式AI的多模态应用。

OpenAI发布的GPT-V4附带语音和图像处理功能，标志ChatGPT正式进入多模态时代，也向外界展示了这家AI龙头公司打造多模态AI应用的决心。

国盛证券看好算力储备大厂在多模态生成领域的发展，其以文生图应用Midjourney为例，该应用日活达1500万，年收入超1亿美元，它推出的多版无限量套餐、高速GPU服务反映出市场对算力的巨大需求。

“别人家的股票”因为“别人家的女儿”站上了风口。

硅谷AI初创新星Pika爆火，不仅让“女儿概念股”信雅达收获两个涨停，还将这股暖风吹到了A股AI应用板块。

12月1日（周五）午后，昆仑万维、万兴科技先后涨停，汤姆猫、福昕软件、国脉文化等多只个股强势上涨。

不过，信雅达在12月1日盘后再次发布公告：截至本公告日，公司没有人工智能视频生成类相关产品和业务；未投资Pika，也未与Pika有任何业务往来，Pika开发团队创始人之一郭文景未在公司任职。

要充分理解这波“女儿概念股”效应的扩散，首先要理解Pika有何出众之处。

回到故事的起点Pika，该公司首款产品Pika 1.0是一款视频生成应用，于北京时间11月29日正式上线。通过输入文字、图片，Pika 1.0能够生成不同风格的3D动画、动漫、卡通和电影，并支持对于视频实时编辑和修改。

“文生视频”是这款应用的核心功能，它与“文生图”的底层技术一致，但实现起来难度更高、成本更大，可以看作是文本生成图像的进阶版技术，两者都属于生成式AI的多模态应用。

可以说，Pika的强大功能再次唤起了市场对于AI应用的无限遐想，也点燃了沉寂已久的AI应用板块。

多模态——AI应用场景拓展的关键

多模态指的是多种模态的信息，包括文本、图像、视频、音频等。

AI领域研究一直致力于以技术实现计算机对于人类认知世界方式的高度效仿。人类具备视觉，听觉，触觉，味觉和嗅觉五种模态，单模态交互显然是一个局限的、并不完整的模型。所以“多模态”研究的大势所趋已十分明朗。

OpenAI发布的GPT-V4附带语音和图像处理功能，标志ChatGPT正式进入多模态时代，也向外界展示了这家AI龙头公司打造多模态AI应用的决心。

与此同时，谷歌、Meta、微软同样投入人员和精力参与其中；xAI面向XPremium+用户推出聊天机器人Grok未来也望发展图像生成、图像识别、语音识别等多模态能力……

对于公司而言，多模态能力提高了AI应用的泛化能力，是产品核心竞争力；对于产业而言，多模态是AI应用场景拓展的关键，而应用生态的完善将反哺上游，有望进一步推动硬件端迭代。

中信证券判断，多模态会是推动本轮AI热点继续前进的下一个增长点。预计下一代多模态将会快速拓展目前大语言模型有限的应用场景，显著提高语言模型的泛化能力，并有望在成本方面展现出对传统专有模型的优势，从而推动如AI Agent等应用的落地，进而推动自动驾驶、机器人等应用获得革命性突破。

天风证券表示，多模态GPT-4V API开放，有望把现有的图像、视频等转化为新的训练数据，有望结合LBS、社交等诞生全新应用，而生态应用的发展将为硬件端发展提供有力支撑。

头部公司尚未拉开身位，比赛才刚刚开始

尽管多模态被赋予了巨大的想象空间，但现实是，相关应用的优化迭代速度和商业化进程均较慢。

即便如Meta和谷歌这样的硅谷人工智能巨头，在文生视频上同样进展缓慢，它们分别推出的Make-A-Video和Phenaki均尚未公测；而前期火爆的文生图领域，虽有Lensa AI、妙鸭相机等出圈，但营收持续增长能力仍待验证。Lensa AI推出人像生成功能后，去年12月前12日内创收2930万美元，但2023年7月全球收入已回落为100万美元；妙鸭相机上线即火爆，半月营收估计超过29万美元，后续须上线新模板、新玩法维持营收增长。

技术不成熟是所有公司面临的共同问题。以文生视频为例，其底层模型及技术仍在优化，未筛选出最优模型。这也导致当下的热门应用，如RunwayGen-2、Zero Scope等存在一些共同问题：复杂人物动作生成帧连续效果较差；非日常场景的视频架构能力连续能力一般；多主体视频生成缺乏逻辑连续性等。

这也正是前文所述的Pika诞生的原因——创始人郭文景和同学认为Runway和Adobe Photoshop当时的AI工具并不算好用，才有了自己做类似工具的想法。颇有些“乾坤未定，你我皆是黑马”的意味。

多模态AI应用将带来哪些投资机会？

对于大模型来说，多模态生成要求的计算量、存储量远高于纯文本模态。

中信证券表示，在传统的纯文字语言模型中，24MB的存储空间可以处理约4000-6000个单词。如果我们假设使用500个单词来描述图片中的全部信息，那么处理图片所需的算力大约是处理文字的8-12倍。

这只是图片模态和文本模态之间的比较，视频生成应用的算力、存力需求比图片生成应用更大。

基于此，AI多模态加速燃烧算力、存力，将为这两大产业链带来更大的想象空间。

国盛证券看好算力储备大厂在多模态生成领域的发展，其以文生图应用Midjourney为例，该应用日活达1500万，年收入超1亿美元，它推出的多版无限量套餐、高速GPU服务反映出市场对算力的巨大需求。该机构分析师认为，目前国内文生图多为计次付费，尚未出现无限量套餐，或因算力受限，具有算力储备的云服务厂商在发展视频生成类应用上具有天然优势。

从应用端来看，多模态AI工具有望赋能传媒行业。

华西证券认为，AI天然具备情感陪伴属性，多模态技术使其能力从文本互动扩大至影视生成。长城证券也表示，多模态能力的突破有助于拓展AI应用场景，传媒行业中游戏、影视、广告营销、数字媒体等板块均有望受益于AI多模态能力的提升。

国盛证券宋嘉吉旗帜鲜明地指出，AI文生视频是多模态应用的下一站。该分析师称，文生视频技术的日趋成熟和广泛应用，或将为当下热门的短剧市场带来变数，该技术有望极大降低短剧制作的综合成本，为解决“重制作而轻创作”的共性问题提供解决方案，短剧制作的重心有望回归高质量剧本创作。

本文来自微信公众号：财联社（ID：cailianpress），作者：宋子乔

声明：该内容为作者独立观点，不代表新零售资讯观点或立场，文章为网友投稿上传，版权归原作者所有，未经允许不得转载。新零售资讯站仅提供信息存储服务，如发现文章、图片等侵权行为，侵权责任由作者本人承担。如对本稿件有异议或投诉，请联系：wuchangxu@youzan.com

Like (0)

转向更卷的奶茶库迪这是要在咖啡上认怂？

Previous 2023年12月2日

拼多多的大航海时代

Next 2023年12月2日

水温80度：AI行业真假繁荣的临界点

我们从来没拥有过这么成功的AI主导的产品。

（这种分析统计并不那么准，但大致数量级是差不多的）

这两个产品碰巧可以用来比较有两个原因：

一个是它们在本质上是一种东西，只不过一个更通用，一个更垂直。

蓝海的海峡

未来成功的AI产品是什么样，大致形态已经比较清楚了，从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时“罢工”，全网打工人都慌了

美西时间午夜12点开始，陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载，忽然无法正常工作了。

因为发现AI用久了，导致现在“离了ChatGPT，大脑根本无法运转”。”

等等，又不是只有一个聊天机器人，难道地球离了ChatGPT就不转了。

大模型连崩原因猜想，谷歌躺赢流量激增6成

GPT归位，人们的工作终于又恢复了秩序。

未来科技 2024年6月5日
ChatGPT宕机8小时，谷歌Gemini搜索量激增60%

ChatGPT一天宕机两次

谷歌Gemini搜索量激增近60%

ChatGPT在全球拥有约1.8亿活跃用户，已成为部分人群工作流程的关键部分。

过去24小时内提交的关于OpenAI宕机的问题报告

图片来源：Downdetector

ChatGPT系统崩溃后，有网友在社交媒体X上发帖警告道：“ChatGPT最近发生的2.5小时全球中断，为我们所有依赖AI工具来支持业务的人敲响了警钟。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时大崩溃，AI集体罢工让全网都慌了

接着OpenAI也在官网更新了恢复服务公告，表示“我们经历了一次重大故障，影响了所有ChatGPT用户的所有计划。Generator调查显示，在ChatGPT首次故障后的四小时内，谷歌AI聊天机器人Gemini搜索量激增60%，达到327058次。

而且研究团队表示，“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关，显示出用户把Gemini视为ChatGPT的直接替代选项。

未来科技 2024年6月5日
深度对话苹果iPad团队：玻璃的传承与演变

iPad最为原始的外观专利

没错，这就是iPad最初被设想的样子：全面屏，圆角矩形，纤薄，就像一片掌心里的玻璃。

2010年发布的初代iPad

好在乔布斯的遗志，并未被iPad团队遗忘。

初代iPad宣传片画面

乔布斯赞同这一想法，于是快速将资源投入平板电脑项目，意欲打造一款与众不同的「上网本」，这就是iPad早年的产品定义。

iPad进化的底色

苹果发布会留下过很多「名场面」，初代iPad发布会的末尾就是一例。

未来科技 2024年6月5日
底层逻辑未通，影视业的AI革命正在褪色…

GPT、Sora均为革命性产品，引发了舆论风暴，但它在上个月发布的“多模态语音对谈”Sky语音，却由于声音太像电影明星斯嘉丽·约翰逊，被正主强烈警告，被迫下架。

华尔街日报也在唱衰，认为“AI工具创新步伐正在放缓，实用性有限，运行成本过高”：

首先，互联网上已经没有更多额外的数据供人工智能模型收集、训练。

03、

如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向，那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

但分歧点正在于此，电影公司希望通过使用AI技术来降低成本，但又不希望自己的内容被AI公司所窃取。

未来科技 2024年6月5日
KAN会引起大模型的范式转变吗？

“先变后加”代替“先加后变”的设计，使得KAN的每一个连接都相当于一个“小型网络”，能实现更强的表达能力。

KAN的主要贡献在于，在当前深度学习的背景下重新审视K氏表示定理，将上述创新网络泛化到任意宽度和深度，并以科学发现为目标进行了一系列实验，展示了其作为“AI+科学”基础模型的潜在作用。

KAN与MLP的对照表：

KAN使神经元之间的非线性转变更加细粒度和多样化。

未来科技 2024年6月5日
这个国家，也开始发芯片补贴了

//mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
[4]中国安防协会：欧盟批准430亿欧元芯片补贴计划：2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
[6]潮电穿戴：印度半导体投资大跃进，一锤砸下1090亿，政府补贴一半.2024.3.5https。

未来科技 2024年6月5日
大模型的电力经济学：中国AI需要多少电力？

这些报告研究对象（数字中心、智能数据中心、加密货币等）、研究市场（全球、中国与美国等）、研究周期（多数截至2030年）各不相同，但基本逻辑大同小异：先根据芯片等硬件的算力与功率，计算出数据中心的用电量，再根据算力增长的预期、芯片能效提升的预期，以及数据中心能效（PUE）提升的预期，来推测未来一段时间内智能数据中心的用电量增长情况。

未来科技 2024年6月5日
你正和20万人一起接受AI面试

原本客户还担心候选人能否接受AI面试这件事，但在2020年以后，候选人进行AI面试的过程已经是完全自动化的，包括面试过程中AI面试官回答候选人的问题，AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

以近屿智能与客户合作的校验周期至少3年来看，方小雷认为AI应用不太可能一下子爆发，包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

未来科技 2024年6月4日

“女儿概念股”效应：多模态或成AI应用胜负手

相关推荐