音乐界Sora上线:AI音乐的GPT时刻到来了吗?

您目前设备暂不支持播放《复古女声》

百老汇音乐剧版沙丘则靠创意取胜,合唱团赞美由甜茶饰演的主角保罗,融合了青少年流行、音乐剧旋律以及摇滚元素。

您目前设备暂不支持播放百老汇音乐剧《沙丘》

Udio。

您目前设备暂不支持播放
迪士尼歌舞片风格

Udio。

您目前设备暂不支持播放《定风波》

让。

Udio。

Udio。

生成之后,Udio。

Udio。

Suno 爆火之后,又一个音乐界 ChatGPT 来了:Udio。

它由前 Google DeepMind 工程师开发,被硅谷知名风投 a16z、Instagram 创始人看好。

虽有爆款之相,但产品本身才能决定,Udio 可否在前辈的开荒后,再留下自己的痕迹。

体验下来发现,Udio 的缺点和优点都很明显,和 Suno 各有所长。同时,目前所有的 AI 音乐都是初听还行,听多了便会出现耳朵和大脑不耐受的情况。

人声更清晰的赛博点唱机

先看看 Udio 官方精挑细选的作品,直观感受好不好听。

乍一听,AI 擅长的音乐体裁挺多,很适合给团建和蹦迪热场,但留不下什么深刻印象。

反而是网友们的自发创作更有意思。从目前的热门作品来看,相比 Suno,Udio 有两个特点:一是人声更加清晰,二是曲风的既视感更强,总感觉在哪里听过。

以下这首把竞争对手 Suno 唱进词里的复古歌曲,女声比 Suno 更清晰,机器味也更少。


《复古女声》

百老汇音乐剧版沙丘则靠创意取胜,合唱团赞美由甜茶饰演的主角保罗,融合了青少年流行、音乐剧旋律以及摇滚元素。


百老汇音乐剧《沙丘》

Udio 甚至还能模仿迪士尼歌舞片的风格,仿佛《美女与野兽》的贝儿、《阿拉丁》的茉莉公主、《冰雪奇缘》的艾莎在耳边歌唱。

迪士尼歌舞片风格

Udio 自己也以人声为傲,表示 AI 会很多唱法,把高亢福音、沙哑蓝调、梦幻流行、丝滑说唱一网打尽。

至于体裁和曲风方面,比较出乎意料的是,Udio 擅长古典,以下这首《C 大调快板合奏》和巴赫的勃兰登堡协奏曲非常相似。


《C 大调快板合奏》

按照 Udio 的规定,它和 Suno 一样,不支持用某个艺术家的声音生成歌曲。不过,Udio 可以用艺术家的风格作为提示词,比如“贝多芬”。甚至有网友叫嚣,如今自己也能成为古典作曲家了。

乡村音乐也是 Udio 的舒适区,《Highway Lasts》这首,有些泰勒·斯威夫特早期专辑的味道,甚至音色和唱腔也莫名形似。


《Highway Lasts》

官方表示,Udio 擅长的流派和风格有很多,如电子舞曲、钢琴爵士、新灵魂乐、极端金属,也精通多种语言,支持生成日本流行乐、宝莱坞音乐、俄罗斯梦幻流行音乐。

凡事不能光看说了的,也要挖掘被隐藏的。Udio 没有提及中文,可能是有意藏拙。

果然,让 Udio 唱中文歌,有种霸王硬上弓的感觉,咬字不清晰又错误频出,发音有点像塑料粤语,不知道是不是拿港台歌训练的 AI,且素材不是很够。

要不是我亲手输入了苏轼《定风波》的“竹杖芒鞋轻胜马……”,根本听不懂女声在唱什么。


《定风波》

让 AI 自动生成中文歌词更是灾难,时不时夹杂英语,且没有什么韵味。

Udio 生成的歌词.

生成十几遍才有一首咬字基本清晰的中文歌曲之后,我也变得佛系了。难听,不想再听,呕哑嘲哳难为听,但好不好听已经没法苛求。勉强宽慰自己,唱得还挺响亮和精神。

新手友好的开盲盒

Udio目前发布的是免费测试版,注册账号之后,每个人每月最多可以生成 1200 首歌曲,按照理想情况,40 秒内就能生成一首。

看着比 Suno 每天 50 个积分大气多了,然而官网挤爆了,服务器又不稳定,我的第一首歌三个多小时都没生成完毕,再登上去查看居然原地消失,只能重新输入提示词,之后的节奏倒是很快,基本在 2 分钟内就能生成。

而且,Udio 创作的片段,默认为 30 多秒,相比 Suno 的 2 分钟,算是大打折扣。

这些是基础设施和基本设定的问题,Udio 也有做得优秀的地方。

和 Suno 类似,Udio 的创作界面非常直观,输入提示词,点击生成,等待 AI 创作完毕。也与 Suno 一样,Udio 通过 API 调用 ChatGPT 编写歌词。

除了让 AI 自由发挥,Udio 也可以更加定制化,让你输入自己的歌词,添加具体的流派标签,选择生成纯音乐,或者包含歌词和人声的歌曲。

同时 Udio 不闲着,起到一个助手的作用,不断地给你提建议,更加新手友好。

一方面,Udio 提醒你怎么让歌词的效果更好,建议你加一些额外的标签,比如[Verse](主歌)、[chorus](副歌),让 AI 更好地理解歌曲的基本架构。

这点其实也写在 Suno 的社区指南里,但初次尝试的新手不一定明白,Udio 把建议写在了输入框旁边,背后原因令人暖心。

另一方面,按照你的提示词,Udio 会建议添加一些流派的标签,比如当我想要生成中国风的音乐,Udio 建议添加“traditional pop”。

Udio 还有一个手动模式(manual mode),一般来说,Udio 会改写我们的提示词,提高生成的质量。

但在这种模式下,Udio 不会做中间商,而是让你原汁原味地和模型交互,应该更适合那些本身就有音乐底子的创作人。

生成之后,Udio 还支持再加工,让你扩展音轨的长度,添加[Intro](前奏)、[Outro](尾奏) 等部分,让作品更加完整。

这个细节 Udio 也比 Suno 做得细致,之前体验 Suno 时,我不知道可以在最前面写上[Intro](前奏),导致生成的歌曲一开始就是人声,不太符合日常听歌的习惯。

就算 Udio 的界面做得简单,但所谓“创作”的过程,还是个开盲盒的过程,并且出错概率体感比 Suno 要多,很容易让人垂头丧气。

如果你对生成的效果不满意,不如玩玩 Udio 的随机提示词,比如“一首关于抢劫失败的合成流行音乐”“一首关于与时间赛跑的拉丁歌曲”“一首关于期待久别重逢的电子舞曲”。

抱着降低期待的心理,我们就不必将 AI 当作精准的创作工具。

如果我们在聚会、团建等场景需要歌曲调动一下氛围,那基本就够用了。这是普通音乐爱好者的赦免权,我们不必创作伟大的音乐,但可以多玩,看能不能生成自己喜欢的音乐。

允许 AI“创作”新的音乐

虽然 Udio 在 4 月 10 日才对外官宣,但这是一场事先张扬的发布,之前就有音乐泄露在 X,引起外界的关注和猜测。

类比是人类的习惯。“音乐界 ChatGPT”的名号已经被 Suno 用了,因为 Udio 可以根据文本提示,快速生成包含人声的完整音轨,支持多种风格和流派,也领了一个互联网称号:“音乐界 Sora”。

预热完了,Udio 终于露出庐山真面目,创始团队里有 4 位是 Google DeepMind 前员工。

和 Suno 一样,Udio 也是希望音乐创作更大众化,同时服务于音乐家,让创作和分享音乐更简单,让想象力变现的门槛更低。

文字、图片、音频、视频,现在的我们其实已经见过了 AI 的各种文本生成。

在 Udio 团队看来,从文本生成一首完整的歌曲,最有魔法的感觉,是个“wow event”(哇哦时刻)

这是因为,音乐是我们更投入情感、也更愿意花时间消费的领域。

Udio 的目标不仅是拥有一个创作音乐的工具,还要搭建一个围绕它的、所有人都能参与的社区。当工具可以让人更轻松地创作时,人们就会成为创造者和消费者的混合体。

Suno 首页.

跟随 Suno 的脚步,Udio 的页面也向音乐软件看齐了,有编辑精选、流行趋势、热门类别、热门曲目等栏目分类。

Udio 首页.

但从直观的听感来说,文生音乐的 AI 工具们都还不够好。它们无法让人忘记,这是机器制作的音乐,一旦听久了,必须停下来缓缓,要不然便是头昏脑胀。

当然,初出茅庐的 Udio 还只是 v1 模型,Suno 也只是 v3 版本,进步的空间都很大。

未来,Udio 的改进方向是,让 AI 更加可控,服务于音乐人,包括导入外部曲目、添加参考人声和更加精细的创作选项。

体验 Suno 时,我们讨论过“创作的幻觉”,音乐被简化成了提示词的游戏,我们的主动权有限,也不能说自己“创作”了音乐。

Udio 给人的感觉也是如此,我们以普通人的角度体验,乐趣只是暂时的,对音乐人的敬意反而更深。

与此同时,AI 音乐生成工具可能陷入和绘画一样的版权争议,侵害音乐人的权益。就在最近,碧梨、水果姐等数百名音乐人联名呼吁,不要用 AI 取代人类艺术家。

《滚石》杂志发现,Udio 可能生成和已故歌手汤姆·佩蒂很相似的音色。Udio 回应,他们内置了一个过滤器,避免生成的声音和真人音乐家相似,但不是百分百奏效。

然而,他们没有正面回答,为什么会出现这样的情况,更没有说清楚,训练数据是什么,有没有拿受版权保护的音乐训练。

回避了版权问题的 Udio,选择以另一个角度升华工具的意义:AI 的产出本身是“变革性的”。换句话说,模型正在从训练数据中创造出新的东西。

Udio 解释,他们的目标不是复制披头士这样的伟大乐队,与其复制,不如直接听披头士。他们所做的,是让 AI 理解音乐的基础,然后创作新的音乐,既受到已有作品的启发,又完全新颖。

言下之意,不原模原样地反刍,就是创新。更多的人参与创作,就是创新。某种程度上,ChatGPT 已经实现这一点了,它可以为作家、艺术家所用,也融入我们的工作流里。

如果 AI 生成音乐的质量变得越来越好、并且越来越可控,它的“创新”能否被大多数人认同?这一切只能交给时间作答,到时候,AI 音乐的 GPT 时刻或许才真的到来。

Udio官网:https://www.udio.com/

本文来自微信公众号:APPSO(ID:appsolution),作者:张成晨

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
(0)
上一篇 2024年4月11日
下一篇 2024年4月11日

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日