让霉霉说地道中文的AI,又惊艳升级了

对技术半信半疑但维权意识强烈的网友说,这是真人的素材被盗了。接单,向法国。在普通话里混了外国口音,谪守的谪、浩浩汤汤的汤没读对,口型似乎对上了又没有完全对上,更没有投入什么感情,看着他皱起的眉头,仿佛他自己也越念越疑惑。在贡献自己的声音和肖像之后,她问。在某些方面已超过普通人,比如我们无法在思考几秒之后,就字正腔圆、情绪饱满地说出几十秒的话。

你应该在短视频平台刷到过各种 AI 配音:猴哥、紫薇、四郎……

初听有趣,但听多了容易腻,因为真人不这么讲话,原型也不是每时每刻都处在半死不活或者被掐着脖子的状态。

尤其当它们都在说“家人们谁懂啊”,会让不慎刷到的人暴躁到崩溃,上演猴哥甩头表情包:烦死了·GIF。

其实,AI 配音未必都这么有特点,而是越来越像你我一样普通,难以和真人分辨开来,这或许才是更可怕、也更有意思的。

一、不独立行走的 AI,把人类吓坏了

前段时间,X 上有个超火的“带货视频”,一个女子坐在汽车前排,直视着镜头,手舞足蹈、眉飞色舞地推销湿巾。

大多数网友的关注点,不在于她带了什么货,而是判断她是不是真人。

他们看她的手和口型,数她瞪白眼的时间,甚至观察她的发丝、面部肌肉、脸颊光影,势要找出证据把 AI 锤死。

为技术焦虑的悲观主义者说,AI 都这么真实了,人类要完蛋了。对技术半信半疑但维权意识强烈的网友说,这是真人的素材被盗了。

然而,两种说法都不对,事情走向了最平淡的结局:视频主角真实存在,她叫 Ariel Marie,今年 24 岁,自愿给 AI 打工。

去年 12 月,Marie 通过零工平台 Fiverr 接单,向法国 AI 公司 Arcads 提供了自己的声音和肖像,按照对方的要求,录制了 9 个不同场景的视频,包括边走边说的、坐在车里的。

最近爆火的视频,她没能第一个知道。等到出圈之后,朋友的朋友发来视频,问她是不是被 AI 偷脸了,她才了解到网友们都在关心自己是否是人类的一份子。

打开视频的瞬间,连 Marie 自己都愣了一下,冷静下来细看,这个数字人是她又不是她,她不会这么推销产品。

Ariel Marie 本人

所以,视频并非纯 AI,而是基于真人演员的预录制,再使用了 DeepFake、AI 配音、口型匹配等技术。

AI 是否独立行走,或许不重要,哪怕没有从头到尾使用 AI,只要最终效果逼真,也是成功的“造假”。网友们第一反应里的疑惑和惶恐,已经说明了问题所在。

AI 甚至不需要比真人做得更好,水平相当就能过关,比如作为绿幕素材插入视频,反而让人觉得是刻意为之,粗制滥造的效果别有风味。

毕竟,我们刷短视频时,可能正处在最分心的状态,坐在沙发,躺在床上,或者在厕所蹲坑,注意力不足以识别是不是 AI。

Marie 为 AI 拍摄的 5 个视频,报价和接单平台的普通视频差不多,15 秒广告的起价约为 70 美元,60 秒广告的起价约为 130 美元。

同时,Arcads 的套餐收费不低,每月 100 欧元 10 个视频,但创作者们还是能节省时间、金钱和精力。

他们输入文字内容、挑选符合风格的演员,几分钟就能生成视频素材,比招聘真人要便宜,还不需要反复沟通和寄出产品。

图片来自:YouTube@Alex Cooper

自从 Marie 走红,更多 AI 公司向她抛去了橄榄枝。人类成为 AI 产品的素材,或许也是一条短暂可行的生财之道。

二、AI 的言行举止,更像普通人了

同在 AI 视频领域,之前让霉霉说中文爆火的 HeyGen,最近也整了新活。

他们的 AI 角色 Nik,在阳光正好的公园里步履款款,边走边说左手插兜右手自然摆动,甚至还会走累了坐下,丝滑切换英语、德语和西班牙语。

效果已经有些难辨真假,不是只能在镜头前面正襟危坐、除了对口型八风不动的状态了。

这说明 AI 角色在两个方面取得了进步,一是可以识别和跟踪用户的身体动作,包括手部,二是在保持口型同步的同时,切换语言还能克隆用户的语音语调。

其实,HeyGen 的 AI 角色也是取材于真人演员,默认的 AI 角色有上百个,拥有不同种族、年龄、手势。

同时,HeyGen 也支持我们定制自己的 AI 角色,但是对拍摄设备和场地的要求稍高。

所以在不久的未来,我们应该可以创建自己的数字替身,让它精准地复制自己的动作和说话方式,同时又无痛掌握多国语言。

虽然最新的功能还没有开放使用,但 HeyGen 放出了 Demo,欢迎网友们输入文本随意尝试口型同步功能,我便让 Nik 读《岳阳楼记》,4 分钟左右就生成完毕,效果有些幽默。


AI读岳阳楼记

Nik 在普通话里混了外国口音,谪守的谪、浩浩汤汤的汤没读对,口型似乎对上了又没有完全对上,更没有投入什么感情,看着他皱起的眉头,仿佛他自己也越念越疑惑。

值得一提的是,HeyGen 背后有 OpenAI 的支持,他们的视频翻译,使用了 OpenAI 前不久官宣的语音模型“Voice Engine”,既可以把声音翻译成多种语言,还保留母语的口音。

官宣,但不是对外发布,OpenAI 的理由是担心滥用,毕竟门槛太低了——使用文本输入和一个 15 秒音频样本,他们的模型就能生成与原始说话者非常相似的自然语音。

但 OpenAI 的普通话说得还不够好,咬字奇怪,声调读不准,当然,考虑到是外国友人,带点口音才显得纯正。


OpenAI普通话

微软,OpenAI 的金主,也在拟人语音方面颇有建树,最近推出了 9 种更真实的 AI 语音,主要服务于对话场景,这和 ChatGPT 等更加通用的产品不同,更加强调人情味。

其中还有两段中文,领先了 OpenAI,甚至不逊色普通话一级甲等的国人。

字正腔圆,没有一点杂音,像播音主持专业毕业生坐在录音棚聊天,咬字、语气、笑声、停顿都非常像真人,听起来确实非常自然,在抖音和视频号前途无量。


微软AI语音对话


微软AI语音播客

以后我们看的五分钟电影解说里的“注意看这个男人叫小帅”,或许不再那么有机器味了。而在一些露脸的视频里,博主们也完全可以用自己的数字替身代劳。

那些相貌出众但不真实的 AI 颜值博主会过时,难以分辨的 AI 普通人博主才是职业生涯长青的赛博打工人。

与其焦虑被偷家,不如自己拥抱数字替身

面对越来越“普通人”的 AI,深感焦虑的,除了怕被诈骗的大众,还有从业者们,这直接关乎到他们的饭碗。

克隆声音,从文本生成音频,用你的声音说出你不会说的话,正在变得越来越容易。OpenAI 语音模型所需的样本,只有短短的 15 秒,短视频都比这长。

行业头部或许还站如松坐如钟,但刚入行、不出名、充当背景板的配音演员们悬起了心。

配音演员 Jared Butler 就是其中一位,他擅长模仿名人的声音,曾是德普的“嘴替”,在《加勒比海盗 3:世界的尽头》等大片为杰克船长配过音。

然而,比他更会模仿声音的 AI 来了。Jared Butler 深感打击:“你可能觉得,它们听起来是糟糕的客服机器人,但我必须说,这项技术的准确性让人恐惧。”

但也因为没有什么可以失去,对于一些配音演员来说,AI 反而是个就业机会。AI 公司们和这些配音演员,属于双向奔赴。

当对数据质量的要求越来越高,同时公开来源的数据搜集是否道德、是否经过本人同意存在舆论争议,AI 公司和专业人士达成你情我愿的合作,成了最稳妥的方式。

Replica Studio 是较为出名的一家 AI 语音技术公司,已经搭建起了一个游戏角色语音库。

与之合作的一位配音演员透露,对于每个角色,他都会录制不同情绪的台词,快乐的、悲伤的、压力山大的。每种情绪大约有 7000 个单词,最终的音频数据集长达几个小时。

虽然在短视频之外,AI 配音还不那么普及,但嗅到危机的一些配音演员决定主动出击,变相转行,翻身做老板,手把手教 AI 代替自己。

为《博德之门 3》等游戏大作配过音的配音演员 Cissy Jones,发现自己被偷了声音对方还不道歉之后,怒而开了一家 AI 语音初创公司 Morpheme。

她保证和那些小偷的道德标准不一样,在争得演员同意之后,才创建他们的数字替身,让他们从中盈利,演员们也可以选择结束合作。

与此同时,Cissy Jones 自己也想省力,让 AI 帮自己做最累的配音部分,尖叫声、沉重的呼吸声,诸如此类。

说回文章开头提到的 AI 带货视频,起初,Ariel Marie 对 AI 只有一个模糊的概念。在贡献自己的声音和肖像之后,她问 Arcads 这些素材会用来做什么。

对方回答,你的肖像会被放在网站上,让别人输入他们想说的话,然后你说给他们听。这个简单的答案,反而打动了 Ariel Marie,她觉得有点可怕,但更多是觉得,这太酷了。

AI 不会倒退,诈骗等负面影响可能也很难禁绝,但同时 AI 只会变得更好、更快、更便宜、更接近人类。

站在原地讨论人的创造力和人性如何保留,或许是苍白而无力的。我们在一次次案例里被迫承认,AI 在某些方面已超过普通人,比如我们无法在思考几秒之后,就字正腔圆、情绪饱满地说出几十秒的话。

但在人与人之间,起跑线或许差别不大,焦虑的情绪彼此共鸣,如何让 AI 为自己所用,如何避免 AI 剥夺自己,不排斥看到新的世界的机会,也是人类创作力的体现。

本文来自微信公众号:APPSO (ID:appsolution),作者:张成晨

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
(0)
上一篇 2024年4月2日
下一篇 2024年4月3日

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日