该让大模型走出对话框了

 
而且,「天工3.0」新增了搜索增强、研究模式、调用代码、绘制图表、多次调用联网搜索等能力,集成了AI搜索、AI写作、AI长文本阅读、AI对话、AI语音合成、AI图片生成、AI漫画创作、AI图片识别、AI音乐生成、AI代码写作、AI表格生成等多项能力,实现了对大模型的多模态突破。
 
而在众多内容生成能力中,「天工3.0」最令外界期待的,莫过于旗下4月17日开放公测的「天工SkyMusic」音乐大模型,这是国内首个音乐AIGC。

题图|天工AI生成

虽然今年只过去了三分之一,但AI领域的创新和迭代速度,依然会让不少人发出四郎般的疑问:你还有多少惊喜是“朕”不知道的?


 如果说2023年的大模型风暴还集中在“对话”上,那么,今年AI带来的亿点点震撼,就突破了文字乃至图像的范畴。

 

2月中旬,OpenAI发布的“文生视频”(text-to-video)的大模型工具Sora直接生成60秒一镜到底、不同景别流畅切换的视频,将文生视频的效果提升数个维度,以至于在demo视频刚公布的最初几天,有人忍不住惊呼“现实世界不存在了”。

 

3月中旬,Suno团队发布的Suno AI V3版本,只要输入简单的文字描述,就可以生成两分钟以内、不同流派风格的音乐作品,效果惊艳,被称为“AI音乐的ChatGPT时刻”。

 

短短一年,大模型再度快速进化。与上一阶段人们热衷于测试大模型能否理解言外之意、能否编程、能否做数学题不同,大模型的能力维度变得更加丰富多元。这意味着什么?

 

通往AGI之路

 

AGI,通用人工智能,AI皇冠上的明珠,AI从业人士追寻的理想和目标,通俗地说,AGI的目标是模仿并超越人类的智力水平,但迄今为止,尚未有现实AGI成果出现,个中原因便在于,当前的AI无法克服认知模型复杂性这一难题。

 

人脑是天生的多任务处理器,机器不是。

 

当下的技术发展,使得人工智能在许多方面已经取得了媲美人类甚至超越人类的成就,例如以AlphaFold和AlphaZero为代表的专业领域AI,以及文书纠正AI Grammarly,DALL·E 2,Imagen等生图AI。但它们的强大仅局限于特定领域。

 

当人在欣赏一朵颜色艳丽、香味扑鼻、造型华丽的花朵时,大脑会自动将颜色、形状、气味等不同维度信息进行综合处理,这种对人类而言十分简单的事情,对机器来说是一件难事。如果机器能够充分理解物理世界不同介质的信息,并进行综合性的处理,这将是重要突破,也意味着AI能够更加智能,能处理更加复杂的事情,提供更加有价值的帮助。

 

大模型在文字、图片、视频、语音等方面取得的进展,意义便在于此。

 

当其他大模型在特定领域内谋求突破时,一位来自中国的选手正在打破模型间的围墙。4月17日,在「天工」大模型发布一周年之际,昆仑万维宣布,「天工3.0」以及「天工SkyMusic」正式开启公测。一年时间,从1.0到3.0,天工大模型发生了什么变化?

 

根据官方介绍,「天工3.0」是4000亿级参数全球最大规模的开源MoE大模型,也是中国首个音乐AIGC SOTA深度学习专有名词,指领域内最好的模型)。相较上一代,「天工3.0」在模型语义理解、逻辑推理、以及通用性、泛化性、不确定性知识、学习能力等领域有很大的性能提升,其模型技术知识能力提升超过20%,数学/推理/代码/文创能力提升超过30%。

 

而且,「天工3.0」新增了搜索增强、研究模式、调用代码、绘制图表、多次调用联网搜索等能力,集成了AI搜索、AI写作、AI长文本阅读、AI对话、AI语音合成、AI图片生成、AI漫画创作、AI图片识别、AI音乐生成、AI代码写作、AI表格生成等多项能力,实现了对大模型的多模态突破。

 

从搜索、查找、定方案,到生成报告、制作表格、制作音乐等等需要使用多个大模型才能完成的多项操作,如今在「天工3.0」可以全部搞定,这无疑能带来极大的便利。

 

惠及用户的同时,「天工3.0」会成为虚拟世界与物理世界的接口,并充当用户在虚拟世界的智能管家,「天工3.0」的价值将是平台级的。

 

在这个过程中,机器处理来自用户的各种复杂需求,输入了更多数据,进行了更多模态的后台处理,这样的输入输出对于AI变得更加智能,意义重大。

 

AI写歌,创作平权

 

「天工3.0」会的多,但绝不是把一堆功能生硬的粘合在一起,其更底层的支撑,来自于模型能力层的提升。

 

大模型很强,但用好有门槛。大部分普通用户没有代码开发经验,更不具备训练大模型提示词工程能力,要把大模型调教成趁手的个人AI助理,用户自己得先花时间好好学习。

 

针对这一现状,「天工3.0」深度训练Agent的能力,针对模型独立规划、调用、组合外部工具及信息的能力进行了专项训练,使其能够独立生成并调用代码,完成包括产业研究、产品横评、信息分析、图片生成、图表绘制等多种复杂用户需求。

 

以买车这个日常生活中的典型场景为例,传统做法是找到对应车型的介绍,再自己列出不同车型的核心参数进行比较,涉及到很多繁琐的工作,这件事在「天工3.0」这儿变得特别简单。

 

当在搜索框中输入“特斯拉Model 3和Model Y哪个好”时,「天工3.0」首先会联网查询最新信息。

 

「天工3.0」给出的结果十分令人惊喜,因为它不仅突破了传统搜索只给出一堆链接、需要用户自己浏览总结的体验,直接把关键信息提炼了出来,更自动生成了两款车型的对比表格,让信息一目了然,便于用户查看。无论内容和还是形式都十分贴心到位。

 

结果出来后,「天工3.0」还进一步细化了提问方向,引导用户了解更加详细的信息维度,以做好决策。原本需要耗费大量时间做的信息搜集、整理和对比工作,在「天工3.0」这里简化成了一步:提问。

 

这种便捷体验的实现,是「天工3.0」多轮内容生成、调用搜索、画表格等能力在做支撑,底层则源自「天工3.0」深度训练Agent的能力,让大模型具有独立思考的能力,实现每一步都能独立思考,每一步都能判断是否调用模式。

 

判断一个大模型够不够聪明,很重要的一点就是它能不能解决复杂问题,数学与推理能力均提升超过30%的「天工3.0」逻辑推理能力大幅提升。这在天工的搜索研究模式、搜索增强模式中体现尤为明显。

 

比如,正值春天,很多人会有鼻塞打喷嚏的症状,在搜索增强模式下查询“春天鼻塞打喷嚏怎么办”后,「天工3.0」将这个比较模糊的问题延伸出了具体的原因和方法。

 

「天工3.0」基于自身的逻辑推理能力,帮用户的模糊提问厘清了思路,进而输出了一份信息全面、针对性也很强的回答。给出了不同的可能性,和相应的解决方案,并在最后继续延展出更加细化的方向,帮助用户结合自身情况进一步找到更加对症的解决办法。


「天工3.0」最令人惊艳的部分,莫过于内容创作能力。

 

其AI图片生成现在支持多轮修图和扩图,从下面的体验中可以看到,当用户输入“两个小孩在花园里玩耍”的需求时,「天工3.0」生成了四幅图片,随后,增加“加一条小狗”的需求后,「天工3.0」也正确的输出了有小狗和小孩一起在花园玩耍的画面。

当输入“扩展当前图片”指令后,「天工3.0」在已生成图片的基础上,进行了合理扩展,为画面增加了花树前景,令图片层次更加丰富、氛围感更足。

 

而在众多内容生成能力中,「天工3.0」最令外界期待的,莫过于旗下4月17日开放公测的「天工SkyMusic」音乐大模型,这是国内首个音乐AIGC SOTA模型。

 

专业术语定义的优秀或许过于抽象,不如先看具体体验。

 

将苏轼经典词作《水调歌头》输入「天工SkyMusic」,很快就生成了三首歌曲,歌曲时长最长为一分半,有男声也有女声。

 

天工SkyMusic搜索结果

女声现代版《水调歌头》

初次生成的曲风偏现代,进入编辑页面,使用参考歌曲功能,选择了《沧海一声笑》作为参考歌曲,让「天工SkyMusic」再次生成,再次生成三首歌曲,曲风产生了明显的变化。


男声古风版《水调歌头》

人声清晰、吐字标准、曲风有古意,显然,与其他AI音乐生成大模型相比,「天工SkyMusic」显然“更适合中国宝宝体质”。

 

达成这样的效果并不容易。

 

AI音乐生成有两大技术路径,符号音乐生成路线、大模型音乐音频生成路线。大模型音乐音频生成+Song(人声)可谓难上加难,而「天工SkyMusic」偏偏选了这条路。

 

对于一首音乐作品而言,人声是非常重要的元素,最能够体现生产作品的效果。过去,AI音乐行业大量研究都集中在符号音乐生成技术路线上,并且大多只能实现无人声背景音乐(Background Music,BGM)的生成,音乐的质量、效果、审美都远远达不到可用水平,产业迟迟未能爆发。

 

而从测试结果可以明显感觉到,「天工SkyMusic」的AI人声中文人声清晰度、咬字准确,听感清晰,显著好于国外产品,达到了业内顶级水平。

 

这是因为,与行业主流路径不同,「天工SkyMusic」采用自研大模型音乐音频生成技术路线,通过大模型技术实现乐器、人声、旋律、音量、音符的一体化端到端音乐生成,技术难度极大,全球只有极少数玩家参与,昆仑万维正是其中之一。

 

如今大语言模型(LLM)百花齐放的背后,很多开源项目可以被借鉴和参考,但在AI音乐大模型领域,几乎没什么开源资源可借鉴。没石头可摸,「天工SkyMusic」踏入湍急的河水中,砸入很多研发资源,摸索出一条路出来。宣布公测的同时,「天工SkyMusic」公布技术原理图——自己把坑踩完后,给行业复现的方案。

 

「天工SkyMusic」技术原理图

 

据介绍,在与海外顶尖的AI音乐大模型Suno V3的横向测评中,「天工SkyMusic」在人声&BGM音质、人声自然度、发音可懂度等领域显著领先对手,并以6.65分的综合得分超越Suno V3,成为全球AI音乐SOTA模型。

 

「天工SkyMusic」还独创了方言歌曲生成能力,在人声自然度、发声可懂度等领域表现优秀,支持粤语、成都话、北京话等众多方言。

 

简单写了几句介绍北京特色小吃的歌词生成歌曲,儿化音倍儿地道。

 

同时,「天工SkyMusic」能够生成80秒44100Hz采样率双声道立体声AI歌曲——这是理论上的CD音质界限,质量很高。「天工SkyMusic」还能根据用户输入的歌词风格生成对应歌曲的风格,创作的易用性和个性化质量也很高。说唱、民谣、放克、古风、电子……不同音乐风格,「天工SkyMusic」都能驾驭。

 

另外,用户可以通过歌词来控制歌曲,让生成的歌曲可以明确分辨出不同歌词段落的情绪变化,体现出主歌和副歌、前奏和主歌的段落差异。独创的参考音乐生成功能,支持用户上传自有参考音乐,生成风格、唱腔类似的歌曲,进一步降低音乐大模型的使用门槛,让不熟悉乐理的用户也能轻松使用。相当内行、专业和贴心。

 

All in AGI与AIGC

 

从游戏业务起家,到成为全球平均月活跃用户近4亿、在海外孵化了多款千万级DAU爆品的企业,昆仑万维有安享舒适区的资本,但也有成为巨头的焦虑。

 

身为体量中型的互联网公司,昆仑万维始终在寻找第二曲线,期望实现突破,让公司规模和影响力更上一层楼。AI送来挑战,也带来希望。

 

2020年GPT-3给方汉带来极大的冲击。身为昆仑万维的管理者,他意识到,AI的高速发展必然会对内容产业带来颠覆性的改变,“AI的任何一点进步都会导致内容创作的大爆发,这是所有内容厂商必须面对的事实。”

 

AI对内容生态太重要了。当曾经必须投入重金才能产出的内容,变成只需对AI描述需求就能输出的产品,内容的生产成本被无限降低,创意的随机性和不可靠性也被大大压缩。这只是AI颠覆内容行业的一个维度。

 

内容产业本就是昆仑万维的主场,经过数十年发展,昆仑万维对于内容有深度理解,对变量也极度敏感,这些都让方汉明确一点:对昆仑万维而言,AI不得不做、必须要做,不然会被颠覆。

 

从2020年,昆仑万维就持续投入AI,2022年底,高管战略会更是决定要All in。在昆仑万维眼中,对AGI和AIGC的投入和追求,不是追逐时髦的one more thing,而是必须押上全部资源投入的未来。

 

战略上的确定推动着昆仑万维AI大模型、AI搜索、AI音乐、AI社交、AI游戏、AI视频六大业务矩阵的快速落地。

 

如今,「天工SkyMusic」的发布为昆仑万维发力AI创作者生态提供了可能性,而昆仑万维在这方面的布局,也将深刻影响行业的走向。

 

AI音乐生成大模型并不是音乐产业的破坏者,而是提供了更为先进的生产工具。就如同火车的发明只是为了帮助人们更好的出行一样,「天工SkyMusic」将音乐创作的门槛降低了,普通人的情绪、情感可以通过大模型工具得到更为广泛的表达。

 

比如,任何一个人都可以用「天工SkyMusic」为古诗词谱上美妙的旋律,通过更加生动有趣的方式,让大众进一步感受到古诗词的美和韵味,这对于诗词文化的传播以及文学教育具有很现实的意义。

 

在让不会乐器、不懂乐理但热爱音乐的普通人,可以无惧不懂乐理、缺乏能力,也能创作出属于自己的音乐后,具备内容生产能力的群体基数变大,文娱内容生产的成本自然会变低。昆仑万维董事长兼CEO方汉便曾透露,根据昆仑万维的观察,当内容创作的门槛下降一半的时候,内容创作者的人数就会翻倍。

 

而创作门槛的降低,更蕴藏着文化平权的深刻价值。

 

方汉观察到,在非洲等经济相对落后的国家和地区,当地生产力太落后,因此没有能力制作好的电影作品来跟强势欧美文化抗衡。而欧美文化能够在全球流行,本质上是做了大投入来创作好内容,达到强势垄断。

 

“当AIGC技术进化后,全世界所有人都可以低成本创作从音乐到小说,从漫画到影视的内容。每一个小语种都会更容易创作出属于自己的文化,这个实际上就是打破垄断的文化平权。”

 

对昆仑万维而言,从实际利益出发,AIGC赋予了人人平等的创作权利,小族群也能创作更多优质内容,这是一个蓝海市场,“在商言商,我们希望在这方面做出我们的差异化竞争”。更重要的是,当主流AIGC产品都以英文为主,中文效果相对没那么好,方言更不支持时,国产AIGC产品的崛起,也为文化的传承和传播提供了一层保护。

 

尽管「天工SkyMusic」目前仍在起步阶段,但已经让很多用户感受到了音乐创作的乐趣。未来随着持续优化完善,为打造一个专业且易用的全民音乐创作平台。这或许会促进更为丰富多样的音乐内容的产生,并在未来对产业的生产方式带来新的变革。其价值,不会局限于商业领域。作为中国首个音乐AIGC大模型,「天工SkyMusic」率先转动了变革的旋钮。

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
Like (0)
Previous 2024年4月18日
Next 2024年4月18日

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日