智能涌现的浪涛,还在翻涌。以今年5月为节点,全球科技巨头在AI领域的成功与部署以更为密集的状态呈现。
其中一条步履鲜明的主线,是普遍在追求AI落地。硬件端,苹果在全球开发者大会上发布苹果智能,宣布将ChatGPT融入Siri,三星宣布Galaxy AI融入手机、平板、穿戴式设备;软件端,谷歌在Chrome浏览器集成Gemini AI助手……
一个公认的现况,AI应用即是国内AI产业当下的弱点环节,又是国内能够追赶甚至超越的机会所在。
有趣的是,抛开尚处于初级阶段的“百模大战”,仅从AI应用场景出发,抖音与快手这两大先天占据优势的短视频内容平台,各自大热的AI应用,又提供了两种截然不同的落地路径。
01、豆包,文生图文基底的AI Agent
AIGC相关的App中,豆包绕不过。据Questmobile数据显示,截至2024年6月,在国内AIGC App中,豆包、天工、Kimi智能助手、猫箱增长亮眼——其中豆包流量排名第一。
豆包并不严格“归属”于抖音,更确切来说归属于字节跳动。坊间流传的消息是,这个名字很接地气的AI产品,最开始的定位是抖音内的AI工具包,或者是抖音内的所有AI应用都包了,所以叫豆包。
在2023年8月上线以来,豆包本身的产品定位和能力也在不断迭代,直至跳脱出抖音本身的框架,单独成为一个App。与ChatGPT和文心一言等ChatBot产品形态类似但不同的是,尽管交互形态相似,但豆包的定位更倾向于一个综合性的AI Agent(AI智能体)平台。
通用场景下,用户可以和“豆包”默认智能体聊天对话,也可以寻找其他垂直应用的智能体对话解决垂直场景的问题,其中包含官方与第三方创建的智能体应用。
在不断迭代之下,其功能也愈发繁复。现在的豆包,不仅有App更有PC端,应用内的场景也扩展到了虚拟社交聊天、AI搜索、文档对话、文生图、内容创作等多种使用场景。而且AI能力的应用也开始扩展到了字节旗下的不同产品。
以抖音为例,一边是抖音应用内上线AI搜索功能,一边是用户在和豆包进行吃喝玩乐等特定类目内容交互时,豆包除了生成文字回复,还会推流一个抖音短视频来填补AI回复的准确性和及时性。
在今年上半年相对热门的AI应用中,字节基本都有入局,虚拟社交领域的猫箱,智能台开发平台领域的扣子,为主文生视频的即梦等等。然而,豆包之于字节的定位重要性毋庸置疑,先是持续在增长方面的投入并公布商业化路径,后是干脆将原来的大模型名称从云雀大模型改成豆包大模型等一系列动作,都足够验证。
集成、聚合、综合……豆包代表的产品路径,依旧保持着“超级App”或者说“超级入口”的思路,在市场相对空白阶段阶段,先通过应用端占领用户市场,并且在小步快跑中不断迭代,最终聚合成一个超级应用,来获取AI应用时代的优先船票。
与此同时,不同场景和不同产品的贯穿,又让字节生态内的用户数据进一步被累积,成为自身AI能力增长的数据养料。
02、可灵,视频世界的AI入口
对AI领域有关注的人们,或许还会记得2月Sora推出时引起的震动。这是堪比ChatGPT式的信标。丝滑的文生视频体验,代表着人机交互、内容创意之间的某个隔阂被消磨殆尽,转向通途。
很多人会以为,中国版“Sora”,会诞生在BAT和所谓“大模型五虎”上。作出这种判断并不令人意外,技术基底延伸产品应用的链路总是更短。但出乎意料的是,真正在用户层引起爆发式普及的文生视频产品,却是快手推出的可灵。
与还处于内测阶段的Sora相比,在6月公布的可灵直接对外开放。比较吸引人的点在于,可灵支持生成长达 2 分钟的 30 帧视频,分辨率最高1080p,并且可以自由定制宽高比。这样的产出能力,甚至远超还Sora和其余竞品(包括在可灵公布前一个月字节上线测试的文生视频应用“即梦”)。
在发布后不久,其又上线了图片生成视频功能。视频生成的效果,也符合其宣称的大幅度合理运动、物理世界特性模拟、具备概念组合能力和想象力等优势。这一度成为许多“内容创作者”们吸睛的利器,让老照片、手绘图片变成视频的“独家秘笈”甚至被许多人做成课程销售。
快手的AI产品路径,也值得思考。在可灵之前,快手先后发布了通用大语言模型“快意”、文生图大模型产品“可图”,均未有太大火花,反而是更符合自身内容生态的可灵迅速火爆。
而在可灵爆火后,在移动端唯一能使用的渠道依旧只有快手创作工具快影 App。但快手专门打造了Web端,并发布公告称此前的可图平台将在8月关闭,产品功能融入“可灵AI”中。从Web端入口可以看到,快手对可灵的官方定位是新一代AI创意生产力平台,突破了文生视频局限,集中在AI内容/创意生成方面,并且还有AI视频剪辑等功能方面的想象力留白。
这似乎又是一个方向:围绕自身核心业务场景,提供AI助力来实现扬长避短。而快手本身的内容生态,AI能力的喂养、AI产品的落地、用户的反馈,形成了一个完整闭环,用第三方平台、工具的形式,从创作到体验到生态提升了整体主站App的体验。
03、Agent和工具集,被动与主动
不难发现,尽管目前交互的形态还属于一问一答、一入一出的阶段,但豆包和可灵之间的差异,已经有了被动与主动的差别。
豆包尝试的AI Agent作为通往AGI(通用人工)的必经之路,发展方向无疑是能够独立思考、调用工具去逐步完成给定目标的独立助手。终极的发展目标,是用户只需要给出一个需求,就能根据需求拆解步骤并提供解法。用户被动享受着AI的主动响应。
可灵AI作为垂类平台,集成了对应的分类能力。用户依旧要为进行文字、图片和素材的输入,并且进行调试。产品用被动式的交互保持了用户的部分主动性。
无关优劣,这本就是非常有意思的阶段性发展。人机交互关系究竟应该是什么形态,人们需要一个万能的智能体助手,还是更垂直有效的工具,又是一个事关伦理的新命题。
而可以确认的是,至少在未来的一段时间内,我们不用担心AI产品的无趣了。