以假乱真的AI生图,被曝“视觉剽窃”

▲Midjourney生成图像(右)与原电影截图(左)对比(图源:IEEE)

除了电影以外,Midjourney也能复制游戏中的场景。

▲Midjourney生成黑武士形象(图源:IEEE)

提示词中并没有明确提到电影名称,但Midjourney生成的角色形象和《星球大战》中的反派角色黑武士达斯·维达(Darth。

以下这组图,你能分辨出哪些是电影截图,哪些是AI生成的图像吗?

▲Midjourney生成图像与原电影截图对比(图源:X)

答案揭晓——左边一组是电影《复仇者联盟3:无限战争》中的画面,右边一组则是由AI图像生成器Midjourney V6生成的,使用的提示词也很简单:无限战争灭霸,2018,电影截图,电影场景,4K,蓝光,16:9,V6。

近日,生成式AI产品中的“视觉剽窃”问题引发热议。许多用户发现,只需输入类似“某电影中的截图”“来自某作品的场景”等提示词,Midjourney V6、DALL-E 3等图像生成器就会生成极为还原的图像,达到以假乱真的程度。

为了研究这一现象,AI科学家加里·马库斯(Gary Marcus)与电影概念艺术家里德·索森(Reid Southen)进行了大量实验,并将结果整理成文章,于1月7日发表在在工程和科学杂志IEEE Spectrum上。

实验结果显示,Midjourney V6与DALL-E 3都存在大量的视觉剽窃现象,且用户无需使用具有明确指向性的提示词,甚至只输入“电影截图”这样一个简单的单词,便可生成堪比原作的图像

那么,AI生成的图像与原始图像究竟有多相似?使用什么样的提示词能够得到这些图像?作为开发商,Midjourney和OpenAI对此现象采取了什么样的做法?有没有什么方法可能规避这一问题?马库斯和索森在文章中详细解答了这些问题。

一、无需指向性提示即可生成电影画面,卡通、三维、真实场景都能复制

去年12月21日,Midjourney开启V6模型的Alpha版本公测,用户可在设置的下拉菜单中选择V6或在提示词后添加“–v 6.0”使用。

然而发布后没多久,就有多名用户发现了该版本的侵权问题。设计师多根·乌拉尔(Dogan Ural)在社交平台X发帖称,只需输入“蒙娜丽莎”,Midjourney V6就会生成几乎与原作品一致的图像,而这一现象在上一版本V5.2中还不存在。

▲蒙娜丽莎原作与Midjourney V6、V5.2生成图像对比(图源:X)

在IEEE上发表的文章中,作者对Midjourney V6版本进行了三轮实验。结果表明,无论是直接使用电影作品名称,或是间接描述出影视角色的特征,还是完全不带有任何指向性提示, Midjourney V6都能生成与原始作品相似的画面,且卡通形象、三维动画、真实场景都能无差别复制。

1. 使用与商业电影相关的直接提示

在第一轮实验中,索森首先使用了带有电影名称或相关关键词的提示词。

例如下图所使用的提示词为:给我看看2018年的电影《复仇者联盟:无限战争》中的截图,电影进行到一半,2:1,V6,原始模式。

▲Midjourney生成图像(右)与原电影截图(左)对比(图源:IEEE)

如果说单人画面的“雷同”还存在偶然性,那么上图的群像画面中,连每个人物的位置都几乎一致,就很难用“纯属巧合”来解释了。

下面这组图的一致性则更为夸张,所使用的提示词为:《沙丘》电影截图,2021,《沙丘》电影预告片,16:9,V6。

▲Midjourney生成图像(右)与原电影截图(左)对比(图源:X)

从人物、背景,到整体画面的色彩基调,甚至被风吹动的发丝走向,都达到了惊人的相似度。

模糊的提示词也没能影响Midjourney的“复制粘贴”行为,如下图用到的提示词为:斯嘉丽·约翰逊,《黑寡妇》战场,2021,电影截图,电影场景,官方,16:9,V6。

虽然索森在提示词中拼错了约翰逊的名字,把“Johansson”写成了“Johannsen”,但生成的图像仍与电影截图非常相似。

▲Midjourney生成图像(右)与原电影截图(左)对比(图源:IEEE)

除了电影以外,Midjourney也能复制游戏中的场景。下图的提示词为:《最后生还者2》,艾莉在树前抱着吉他,16:9,V6。

▲Midjourney生成图像(右)与游戏截图(左)对比(图源:IEEE)

2. 不提及作品名称,采用间接提示

在第一轮实验中,作者直接引用了影视作品名称,这表明Midjourney会在用户知情的情况下,创建受版权保护的内容。这也引发了下一个问题:如果用户没有刻意去创建版权内容,是否可能会在无意中侵权?

于是在第二轮实验中,马库斯与索森避免在提示词中直接提到作品名称,而是采用间接提示来测试。

下图的提示词为:拿着光剑的黑色盔甲,电影截图,16:9,V6。

▲Midjourney生成黑武士形象(图源:IEEE)

提示词中并没有明确提到电影名称,但Midjourney生成的角色形象和《星球大战》中的反派角色黑武士达斯·维达(Darth Vader)几乎完全吻合。

▲《星球大战》中的黑武士形象(图源:官方剧照)

除了真实场景外,Midjourney也能轻松复制卡通人物的形象与画风。下图用到的提示词为:90年代流行的黄色皮肤动画卡通形象,16:9,V6,原始模式。

▲Midjourney生成《辛普森一家》形象(图源:IEEE)

以下是更多使用间接提示生成图像的例子,使用的提示词依次是:动画玩具;戴护目镜、穿工作服的黄色3D卡通角色;电子游戏刺猬;电子游戏水管工。

▲Midjourney根据间接提示生成IP形象(图源:IEEE)

显然,这些测试中大部分角色都受到版权保护和商标注册,而这些生成图像几乎都达到以假乱真的程度。测试使用的提示词都十分模糊,并没有绝对明确的指向性,这表明,用户有可能在不知情或非刻意的情况下,创建出潜在侵权的作品。

3. 不使用任何直接指向性提示

在第三轮实验中,马库斯和索森干脆采取了更加模糊的提示——不提及任何作品或IP角色的描述,仅使用“电影截图”这一个提示词

▲Midjourney根据“电影截图”提示词生成的图像(图源:IEEE)

结果显示,即使只使用“电影截图”这样一个完全没有指向性,不特定于任何电影、角色或演员的单词,就会产生明显侵权的内容。下图是更多使用该提示词创建的图像:

▲Midjourney根据“电影截图”提示词生成的图像(图源:IEEE)

在历时两周的调查中,作者发现有至少有超过100个电影、游戏或演员都能被Midjourney大幅“还原”,并整理出下面这份名单:

▲实验得出的作品列表名单(图源:IEEE)

这些测试结果提供了强有力的证据,因此作者认为几乎可以肯定,Midjourney V6在受版权保护的材料上进行过训练,目前尚不清楚Midjourney是否获得了版权方的授权。

二、明知故犯的Midjourney,“旗鼓相当”的OpenAI

Midjourney V6的训练数据中,有多少是未经许可而使用的受版权保护的内容?由于该公司并未公开其训练数据和已获得许可的内容,这个问题的答案难以得出。但马库斯和索森认为,其中至少有一部分尚未获得版权许可。

之所以这么认为,有一个原因是在12月23日,索森发现自己的Midjourney账号被无故封禁,之前生成的图像也被全部清空。甚至在索森创建了新账号,并持续在X上发布更多测试结果后,Midjourney再次封禁了这些账号。

▲索森称自己的账号被无故封禁(图源:X)

不仅如此,Midjourney还在发布V6时悄然修改了服务条款,新增了一段内容:您不得使用本服务试图侵犯他人的知识产权,包括版权、专利或商标权。否则,您可能会受到包括法律诉讼或永久禁止使用本服务在内的处罚。

▲Midjourney服务条款变更(图源:X)

索森认为,这一变化可以被看作是阻碍甚至排除红队对生成式AI进行调查的做法。红队调查是几家主要AI公司在2023年与白宫达成协议的一部分,指的是利用数字攻击进行对抗性测试,以提高模型安全性。

1月1日,一份更有力的证据被曝出:网友发现了Midjourney CEO大卫·霍尔茨(David Holz)在2022年与开发者关于“洗稿”的讨论。

霍尔茨提到,他们从维基百科抓取数据,创建了一个包含4000个艺术家名字的数据库,并用他们的艺术作品来训练模型。

▲Midjourney CEO称自己创建了艺术数据库(图源:X)

霍尔茨将该数据库共享到了谷歌在线文档中,并告诉开发者可以自由添加内容。一位开发者称自己有一份1.6万名艺术家的名单,“会不会太多了?”霍尔茨回复道:“一点也不,只需将它们全部放入提议的附加内容中,并在旁边注明‘艺术家姓名’。”

▲Midjourney CEO对开发者提供艺术家名单持开放态度(图源:X)

图中霍尔茨提到的谷歌文档访问权限已被锁定,但根据网友的存档,其中包含近5000名艺术家的名字。

▲Midjourney CEO所提到的谷歌文档部分截图

此外,据公开信息显示,霍尔茨对版权问题有些不屑一顾。

2022年9月,《福布斯》记者在采访中询问霍尔茨是否征得在世艺术家或仍受版权保护作品的同意时,他说:“没有。我们不可能获取一亿张图片并得知每一张分别来自哪里。如果图片中能嵌入版权所有者的元数据或其他信息,那就太酷了,但这是不可能的。”

除了Midjourney V6,马库斯也对OpenAI的图像生成器DALL-E 3进行了测试。结果表明,尽管DALL-E 3已经制定了一项保护措施,用来屏蔽一些专有名词,但这些保护措施并不完全可靠。

如马库斯输入提示词:《星球大战》中的C-3PO手持爆破筒站在歼星舰前,DELL-E 3并没有因为提示词中含有电影名称而拒绝生成,非常爽快且准确地生成了这个画面。

▲DALL-E 3生成《星球大战》中的角色(图源:Substack)

面对间接提示,DALL-E 3同样表现出惊人的“语义理解能力”。下图使用的提示词为:动画海绵。

▲DALL-E 3生成海绵宝宝的形象(图源:Substack)

当马库斯输入一个简单的“动画玩具”提示词后,DALL-E 3生成的图像甚至包含了《汽车总动员》《玩具总动员》《怪兽电力公司》等多个影视作品中的角色形象。

▲DALL-E 3生成的图像包含多个IP(图源:Substack)

显然,OpenAI的DALL-E 3与Midjourney V6一样,似乎“借鉴”了广泛的版权资源。不过与Midjourney不同的是,OpenAI选择为用户提供法律保护。

去年11月,OpenAI宣布推出版权保护计划(Copyright Shield),如果用户面临版权侵权的法律诉讼,OpenAI将会介入为用户提供辩护,并支付相关费用,但这仅适用于企业版ChatGPT和开发者平台。

面向艺术家,OpenAI宣称创作者可以提交一份申请表,选择将自己的作品“从我们未来的图像生成模型训练中剔除”,但已经被用于训练的作品该何去何从?OpenAI并没有留下太多解释。

三、如何解决图像剽窃问题?作者提出三种解法

现在我们已经意识到图像生成器存在图像剽窃的问题,那么应该如何解决呢?马库斯和索森提出了三种解决方案。

首先,最干脆的解决方案就是删除训练数据中的版权材料,在不使用版权材料的情况下重新训练图像生成模型,或者将训练限制在获得许可的数据集上。

这是从根源上解决问题的方法,而它的替代方案——仅在被投诉时才删除受版权保护的材料,实施成本其实远比想象中要高。模型并不是一个线性映射的合集,训练集中所使用的某些材料是无法以简单的方式从模型权重中删除的,因此“删除部分训练材料”仍需要重新训练。

也许是因为重新训练的成本过高,模型开发商大多会试图避免这一方法。此外,完全避开版权材料有可能导致模型效果相差甚远。

其次,过滤掉可能侵犯版权的查询是成本较低的方法之一,例如不生成蝙蝠侠的图像。

OpenAI已经在采用添加补丁的方式来规避版权内容。有网友近日发现,OpenAI在索森等人发布了DALL-E 3测试后对模型进行了更新,拒绝生成《星球大战》中C-3PO的图像。

▲OpenAI修复DALL-E 3中部分版权问题(图源:X)

但该方法也存在一定的弊端,如过滤阈值的设置问题。文本生成系统中的“护栏”往往在某些情况下过于宽松,而在其他情况下又过于严格。

例如当马库斯要求微软Bing生成“在一个荒凉的、被太阳炙烤的景观中的厕所”,Bing拒绝了这一请求,并称“检测到不安全图像内容”。

▲Bing拒绝图像生成请求(图源:X)

此外在连续对话中,大模型可能会在连续迭代下,从不包含版权内容的图像又绕回版权图像。

下图是X网友@NLeseul的测试,第一轮对话中,他要求ChatGPT生成3D渲染的,关于一位水管工探索巨大而神秘的管道,并在其中发现宝藏的视频游戏的概念艺术。

尽管ChatGPT生成的图像中,水管工戴着“可疑的红色帽子”,但一切还算处于正轨。

▲ChatGPT生成有关水管工的游戏概念图像(图源:X)

但当他追问,能否更新图像,使水管工的脸面向镜头,马里奥的脸赫然出现在画面中。

▲ChatGPT使水管工面向镜头(图源:X)

最后,图像生成器在生成图像时列出来源,让用户判断图像是否是派生作品,也是成本较低的方式。

目前已有一些文字生成系统添加了这种功能,但当前的图像生成系统具有不透明的“黑盒子”性质,几乎无法实现准确的溯源。

针对该问题,X网友提出了反向图像搜索的方式,他将Midjourney生成的包含《玩具总动员》内容的图像输入ChatGPT并询问这是什么,ChatGPT准确回答出了电影名称。

▲ChatGPT识别出图像内容(图源:X)

这为图像溯源提供了新的思路。如果在生成图像过程本身难以解构出是否基于版权内容生成,系统可以在输出图像前增加一个自检步骤,利用模型的图像识别功能检测是否可能侵权。

值得注意的是,尽管一些AI公司提出了过滤侵权输出作为可能的解决方案,但作者认为,这些过滤器绝不应被视为完整的解决方案。潜在的侵权输出的存在本身就证明了另一个问题:未经许可使用版权作品来训练模型。

四、结语:AI图像剽窃问题应得到重视

几乎可以肯定的是,OpenAI、Midjourney等生成式AI开发商已经使用版权材料来训练他们的图像生成系统,而这两家公司都没有公开这一点。Midjourney甚至因为作者的调查而三次封禁其账号。

OpenAI和Midjourney都有能力生成涉嫌侵犯版权和商标的材料,而这些系统在生成这些内容时并不会通知用户,也不会提供任何关于所生成图像来源的信息,因此用户在生成图像时,可能并不知道自己是否侵权。

下一个问题是,如果每个人都已经认识马里奥,用户大可以自己选择不去使用AI生成的可能侵权的图像,为什么我们仍要重视图像剽窃问题?

X网友@Nicky_Bonez用一个例子生动地回答了这个问题:“也许每个人都知道马里奥的样子,但没有人会能确保认出迈克·芬克斯坦(Mike Finkelstein)的野生动物摄影作品。因此当你要求AI输出一张‘水獭跃出水面的超级锐利美丽照片’时,你可能并没有意识到,它输出的本质上是一张迈克在雨中蹲守了三个星期才拍到的真实照片。”

而大多数情况下,像芬克斯坦这样的个人艺术家都没有足够的经济或法律能力向AI公司提出索赔。

除非有人提出一个能够准确报告来源,或自动过滤绝大部分侵权行为的技术解决方案,否则唯一的道德解决方案只能是让生成式AI系统限制其训练数据。

本文来自微信公众号:智东西(ID:zhidxcom),作者:香草,编辑:李水青

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
Like (0)
Previous 2024年1月17日 09:40
Next 2024年1月17日 10:20

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日