ChatGPT盗用《权力的游戏》做训练素材，原作者是怎么证明的？

2023年9月21日 21:12 • 未来科技

一、被告自认（其实是ChatGPT自认）

诉状称，OpenAI为了训练其大型语言模型，在未征得作者同意的情况下复制了由原告撰写的受版权保护的书籍，并且OpenAI已公开承认了。

笔者认为，虽然ChatGPT自认其训练素材可能没有授权，但鉴于人工智能经常在回复里没有依据地胡说八道（ChatGPT曾说笔者这个知识产权律师是刑事律师，最近处理过一起很有名的强奸案，明显在胡编，没有任何依据），这段回复要有其他证据佐证才能被法院认定为案件的事实。

诉状总结：如果OpenAI大型语言模型没有摄取马丁侵权作品并对其进行训练，ChatGPT。

据媒体报道^[1]，近日美国作家协会携包括《冰与火之歌：权力的游戏》的作者乔治·马丁在内的17名作家在美国纽约南区法院对人工智能公司OpenAI发起集体诉讼，指控后者未经许可使用了受版权保护的作品训练人工智能模型。

作为律师，笔者对原告如何证明OpenAI用《冰与火之歌：权力的游戏》训练ChatGPT很感兴趣，就查阅了美国作家协会网站上的起诉状，本文会结合著作权法律跟大家聊聊这个事情。

众所周知，人工智能服务的解答能力要强，高质量的训练数据必不可少，但世界上多数国家的著作权法都要求人工智能开发者使用他人享有著作权的内容进行训练前，应当取得著作权人的许可。而人工智能开发者出于种种考虑（比如避免繁琐冗长的授权商务谈判、开发时限要求他们只争朝夕、减少版权成本等种种考虑、部分著作权人授权拿不到哪怕给钱也不愿意给他们授权），直接在人工智能开发时使用了盗版内容作为训练数据。

但对于这种做法，因为大模型的训练数据是不公开的，训练过程也是黑箱操作，著作权人即使知道存在侵权也很难举证，美国现在既然有诉讼，下面我们就看看美国律师是怎么证明的。

一、被告自认（其实是ChatGPT自认）

诉状称，OpenAI为了训练其大型语言模型，在未征得作者同意的情况下复制了由原告撰写的受版权保护的书籍，并且OpenAI已公开承认了。因为原告的律师向ChatGPT提问，然后聊天机器人回应称：

用于训练我的一些书籍可能是受版权保护的。不过，我的训练数据来自互联网上的各种公开来源，我的训练数据集中包含的一些书籍很可能没有被授权使用……如果我的训练数据中包含了任何受版权保护的资料，那么这些资料的使用是在版权持有者不知情或未征得版权持有者同意的情况下进行的。

同时，原告律师发现，直到最近，ChatGPT还能准确无误地返回受版权保护的书籍中的文字原文，这表明底层大型语言模型在训练过程中一定完整地录入了这些书籍。虽然最近ChatGPT对此进行了修改，会以“我无法提供版权文本的逐字摘录”来回应此类提示。从时间上看，ChatGP对输出规则的这一明显修改很可能是因为原告作家协会给OpenAI和其他公司发了公开信。

笔者认为，虽然ChatGPT自认其训练素材可能没有授权，但鉴于人工智能经常在回复里没有依据地胡说八道（ChatGPT曾说笔者这个知识产权律师是刑事律师，最近处理过一起很有名的强奸案，明显在胡编，没有任何依据），这段回复要有其他证据佐证才能被法院认定为案件的事实。

二、训练素材包来自知名盗版网站

诉状称：ChatGPT现在提供的不是逐字摘录，而是受版权保护的书籍的摘要，其中通常包含评论和其他公开资料中没有的细节——这再次表明，基础大型语言模型在训练期间必须录入整本书。但OpenAI对于从何处以及如何获得原告受版权保护的作品，始终语焉不详。OpenAI承认，它用来训练模型的训练数据集包括“Common Crawl”和两个高质量的基于互联网的书籍语料库，它称之为“Booksl”和“Books2.T2”。

Common Crawl是一个庞大且不断增长的语料库，包含从数十亿网页中抓取的“原始网页数据、元数据提取和文本提取”。它被广泛用于训练大型语言模型，除OpenAI的GPT外，还被用于训练脸书和谷歌的人工智能引擎。众所周知，它包含从盗版网站复制的书籍文本（链接到 Z-Library，另一个拥有 1100多万册图书的大型盗版图书库出现在Common Crawl语料库中，并被纳入其他大型语言模型的训练数据集）。

OpenAI拒绝讨论Books2数据集的来源。但一些独立的Al研究人员怀疑 Books2 包含或由从大型盗版图书库下载的电子书文件组成，如Library Genesis或LibGen，“它提供了一个庞大的盗版文本库：LibGen 作为一个臭名昭著的版权侵权者已为法院所熟知。而Books2 的其他可能来源包括 Z-Library和 Bibliotik 等盗版种子跟踪器，这些跟踪器允许用户批量下载电子书。”

原告律师无法证明Books2的数据来源，所以举了著名包含大量盗版内容的训练素材库“Books3”作为类比证据（《连线》杂志报道过，脸书和彭博社的大型语言模型使用了“Books3”的素材库）^[2]：已披露的 Books2 数据集的规模表明，该数据集包含10万多本书。Books2和Books3的大小相似，而且互联网上允许批量下载电子书的盗版存储库寥寥无几，这有力地表明Books2中的书籍也是从上文讨论过的臭名昭著的存储库中获取的。

如果这个诉讼是在中国进行的，如果原告初步证明了被告的训练素材存在盗版，此时，举证责任就在被告，被告要证明其训练素材不存在盗版，否则法院就会支持原告的证明内容。

三、乔治·马丁如何证明OpenAI用其作品训练了ChatGPT？

诉状称，乔治·马丁是包括《权力的游戏》在内的十五部小说作品的著作权人，OpenAI在未经许可的情况下录入并复制了乔治·马丁的全部或多部作品，并将其用于训练OpenAI 的大型语言模型。诉状中举了两个第三方新闻的例子：

1. 2023 年 7 月，一个叫Liam Swayne的程序员^[3]使用 ChatGPT 生成了《凛冬的寒风》《春晓的梦想》的版本，这两本书是马丁正在创作的《冰与火之歌》系列的最后两部作品。

2. 美国加州大学伯克利分校的研究人员对ChatGPT对作品的“记忆”程度进行了一项实验^[4]，发现马丁的小说《权力的游戏》在“记忆”程度方面排名第12位。

然后，原告律师使用ChatGPT进行测试，输入提示后，ChatGPT 准确生成了几部马丁作品的摘要，包括冰与火之歌》系列的前三部《权力的游戏》《列王的纷争》《冰雨的风暴》以及《末日审判布条》最后一章的准确摘要。

原告律师输入提示后，ChatGPT还为马丁作品《列王的纷争》的另一部续集生成了一份详细大纲，并将该衍生作品命名为“A Dance With Shadows”，其中使用了马丁《冰与火之歌》系列现有书籍中的相同角色。ChatGPT还生成了一份《权力的游戏前传》的详细大纲，并将该衍生作品命名为“A Dawn of Direwolves”，其中使用了与《冰与火之歌》系列丛书中相同的人物。

诉状总结：如果OpenAI大型语言模型没有摄取马丁侵权作品并对其进行训练，ChatGPT 就不可能产生上述结果。笔者认为，如果诉讼在中国法院进行，马丁的律师已经证明了ChatGPT使用了马丁的作品进行训练，并且其服务器目前仍然留存着马丁作品的复制件。

四、人工智能训练可以不用获得著作权人的授权吗？

法律原理上，让人工智能学习网上内容的过程是一个复制行为或者临时复制行为，人工智能公司要先将网上的或者线下获得的内容爬取，然后输入到人工智能程序中，无论这个内容是文字、图片、音频、视频还是程序，复制行为都应当获得相应权利人许可，否则就涉嫌侵权。

实际上我国法律法规也是这么规定的，根据我国《著作权法》和七部门联合发布的《生成式人工智能服务管理暂行办法》，我国的生成式人工智能服务提供者（以下称提供者）开展预训练、优化训练等训练数据处理活动时，不得侵害他人依法享有的知识产权，也就是说，训练素材需要取得著作权人的许可。在美国，如前文所述，训练人工智能的版权素材需要著作权人授权。

但对这个问题，也有国家的规定不太一样，比如根据日本著作权法第30条第4款，用版权内容训练人工智能属于合理使用：如果不以欣赏作品中表达的思想或情感为目的，且没有不合理地损害著作人权益的，可以合理使用他人享有著作权的作品。

笔者觉得，虽然日本的规定立法目的可能是为了振兴该国的人工智能产业，但其实也是一个思路，因为人工智能生成的内容不受著作权法保护，那其创造的内容就是全民共有的，那把所有的版权作品都让其学习一下，成果出来了大家都不需要授权就可以用，这个说不定也挺好。

参考资料：

1. https://finance.eastmoney.com/a/202309212853452095.html

2. https://www.wired.com/story/battle-over-books3/

3. https://game.sohu.com/a/704547146_114760

4. https://hub.baai.ac.cn/view/26572

本文作者：游云庭，上海大邦律师事务所高级合伙人，知识产权律师。电话：8621-52134900，Email: yytbest@gmail.com，本文仅代表作者观点。

声明：该内容为作者独立观点，不代表新零售资讯观点或立场，文章为网友投稿上传，版权归原作者所有，未经允许不得转载。新零售资讯站仅提供信息存储服务，如发现文章、图片等侵权行为，侵权责任由作者本人承担。如对本稿件有异议或投诉，请联系：wuchangxu@youzan.com

Like (0)

本来生活受邀参加第十二届中国知识产权年会同期活动，发布“地理标志频道”

Previous 2023年9月21日

苹果这项推动数年的变革，卡壳了

Next 2023年9月21日

水温80度：AI行业真假繁荣的临界点

我们从来没拥有过这么成功的AI主导的产品。

（这种分析统计并不那么准，但大致数量级是差不多的）

这两个产品碰巧可以用来比较有两个原因：

一个是它们在本质上是一种东西，只不过一个更通用，一个更垂直。

蓝海的海峡

未来成功的AI产品是什么样，大致形态已经比较清楚了，从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时“罢工”，全网打工人都慌了

美西时间午夜12点开始，陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载，忽然无法正常工作了。

因为发现AI用久了，导致现在“离了ChatGPT，大脑根本无法运转”。”

等等，又不是只有一个聊天机器人，难道地球离了ChatGPT就不转了。

大模型连崩原因猜想，谷歌躺赢流量激增6成

GPT归位，人们的工作终于又恢复了秩序。

未来科技 2024年6月5日
ChatGPT宕机8小时，谷歌Gemini搜索量激增60%

ChatGPT一天宕机两次

谷歌Gemini搜索量激增近60%

ChatGPT在全球拥有约1.8亿活跃用户，已成为部分人群工作流程的关键部分。

过去24小时内提交的关于OpenAI宕机的问题报告

图片来源：Downdetector

ChatGPT系统崩溃后，有网友在社交媒体X上发帖警告道：“ChatGPT最近发生的2.5小时全球中断，为我们所有依赖AI工具来支持业务的人敲响了警钟。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时大崩溃，AI集体罢工让全网都慌了

接着OpenAI也在官网更新了恢复服务公告，表示“我们经历了一次重大故障，影响了所有ChatGPT用户的所有计划。Generator调查显示，在ChatGPT首次故障后的四小时内，谷歌AI聊天机器人Gemini搜索量激增60%，达到327058次。

而且研究团队表示，“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关，显示出用户把Gemini视为ChatGPT的直接替代选项。

未来科技 2024年6月5日
深度对话苹果iPad团队：玻璃的传承与演变

iPad最为原始的外观专利

没错，这就是iPad最初被设想的样子：全面屏，圆角矩形，纤薄，就像一片掌心里的玻璃。

2010年发布的初代iPad

好在乔布斯的遗志，并未被iPad团队遗忘。

初代iPad宣传片画面

乔布斯赞同这一想法，于是快速将资源投入平板电脑项目，意欲打造一款与众不同的「上网本」，这就是iPad早年的产品定义。

iPad进化的底色

苹果发布会留下过很多「名场面」，初代iPad发布会的末尾就是一例。

未来科技 2024年6月5日
底层逻辑未通，影视业的AI革命正在褪色…

GPT、Sora均为革命性产品，引发了舆论风暴，但它在上个月发布的“多模态语音对谈”Sky语音，却由于声音太像电影明星斯嘉丽·约翰逊，被正主强烈警告，被迫下架。

华尔街日报也在唱衰，认为“AI工具创新步伐正在放缓，实用性有限，运行成本过高”：

首先，互联网上已经没有更多额外的数据供人工智能模型收集、训练。

03、

如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向，那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

但分歧点正在于此，电影公司希望通过使用AI技术来降低成本，但又不希望自己的内容被AI公司所窃取。

未来科技 2024年6月5日
KAN会引起大模型的范式转变吗？

“先变后加”代替“先加后变”的设计，使得KAN的每一个连接都相当于一个“小型网络”，能实现更强的表达能力。

KAN的主要贡献在于，在当前深度学习的背景下重新审视K氏表示定理，将上述创新网络泛化到任意宽度和深度，并以科学发现为目标进行了一系列实验，展示了其作为“AI+科学”基础模型的潜在作用。

KAN与MLP的对照表：

KAN使神经元之间的非线性转变更加细粒度和多样化。

未来科技 2024年6月5日
这个国家，也开始发芯片补贴了

//mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
[4]中国安防协会：欧盟批准430亿欧元芯片补贴计划：2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
[6]潮电穿戴：印度半导体投资大跃进，一锤砸下1090亿，政府补贴一半.2024.3.5https。

未来科技 2024年6月5日
大模型的电力经济学：中国AI需要多少电力？

这些报告研究对象（数字中心、智能数据中心、加密货币等）、研究市场（全球、中国与美国等）、研究周期（多数截至2030年）各不相同，但基本逻辑大同小异：先根据芯片等硬件的算力与功率，计算出数据中心的用电量，再根据算力增长的预期、芯片能效提升的预期，以及数据中心能效（PUE）提升的预期，来推测未来一段时间内智能数据中心的用电量增长情况。

未来科技 2024年6月5日
你正和20万人一起接受AI面试

原本客户还担心候选人能否接受AI面试这件事，但在2020年以后，候选人进行AI面试的过程已经是完全自动化的，包括面试过程中AI面试官回答候选人的问题，AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

以近屿智能与客户合作的校验周期至少3年来看，方小雷认为AI应用不太可能一下子爆发，包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

未来科技 2024年6月4日

ChatGPT盗用《权力的游戏》做训练素材，原作者是怎么证明的？

相关推荐