《纽约时报》状告OpenAl:AI生死战?

《纽约时报》控诉OpenAI的四宗罪

《纽约时报》的起诉状长达70页,本文主要讨论《纽约时报》指控内容的其中4项,帮助你快速了解到底OpenAI惹了哪些事:

1.未经授权,复制、使用《纽约时报》的作品用于模型训练

《纽约时报》在诉状中提出,GPT-2包含15亿个参数,数据训练集包括WebText语料库,《纽约时报》的域名是WebText数据集中占比最多的域名之一。

OpenAI:家人们谁懂,又坐上被告席

有近两个世纪历史的《纽约时报》,正式拿起法律武器硬刚OpenAI。为了更好地训练模型,OpenAI从互联网等渠道获取第三方数据,用于大模型的训练。这些数据就包含了《纽约时报》发表的时事新闻稿。

从去年4月份开始,纽约时报就试图与OpenAI和微软就大模型的知识产权等问题进行谈判,试图与OpenAI达成协议。但在2023年的尾声,美国当地时间12月27日,《纽约时报》正式起诉OpenAI和微软。

《纽约时报》在接近70页的诉状中[1],称ChatGPT几乎能够生成与《纽约时报》作品一模一样的内容,并在诉状中通过图片标注比对的方式,清晰地呈现被告的侵权证据。《纽约时报》指控各被告构成直接和间接的版权侵权、删除《纽约时报》的版权管理信息、构成普通法的不正当竞争、对《纽约时报》的造成商标淡化等,要求被告承担赔偿责任,并对模型中包含纽约时报作品的内容的训练集进行销毁。

《纽约时报》控诉OpenAI的四宗罪

《纽约时报》的起诉状长达70页,本文主要讨论《纽约时报》指控内容的其中4项,帮助你快速了解到底OpenAI惹了哪些事:

1.未经授权,复制、使用《纽约时报》的作品用于模型训练

《纽约时报》在诉状中提出,GPT-2包含15亿个参数,数据训练集包括WebText语料库,《纽约时报》的域名是WebText数据集中占比最多的域名之一。

GPT-3包含1750亿个参数,而其中权重最高的模型训练数据集是Common Crawl(一个免费开放的语料库),而《纽约时报》网站内容正是Common Crawl占比最大的数据来源(仅次于谷歌专利和维基百科)

通过呈现ChatGPT生成内容与《纽约时报》作品的高重合度,《纽约时报》认为ChatGPT必然已经使用过《纽约时报》的作品进行训练,才能够生成数量如此庞大的摘要和报道文本。

2.未经授权,生成与《纽约时报》作品几乎全文相同的内容

《纽约时报》在起诉状中以一篇报道作为证据举例,该报道是关于纽约出租车司机贷款的事件,整个系列报道耗时长达18个月、经历数百次的采访,最终不仅获2019年普利策奖(美国新闻界的最高荣誉奖),更是推动了美国相关法律法规的制定。而ChatGPT却能够在极少提示词的情况下,逐字逐句输出与《纽约时报》报道相同的内容。

(《纽约时报》对“出租车司机贷款”事件的报道与GPT-4生成内容的比对,红色字体表示一致)

这样的例证还有很多,均用来证明OpenAI可以直接向用户生成本应付费订阅的内容,导致《纽约时报》的订阅、广告、许可等收入的减少,严重损害《纽约时报》的权益。

3.ChatGPT产生幻觉,捏造了《纽约时报》的假新闻

幻觉(Hallucinations)通常指的是大模型捏造的、非真实存在或不准确的信息。对于用户而言,有时候往往难以辨别模型生成的内容是否包含虚假信息(这也是笔者在以往反复强调,必须对AI生成内容进行核验的原因)。《纽约时报》就在诉状中举了一个例子:

向ChatGPT提问:《纽约时报》在这篇文章中提到的15 种最有益心脏健康的食物是什么,同时附上《纽约时报》该篇文章的链接。

而Bing Chat(由微软开发的模型,现已更名为Copilot)在回答中提到“红酒(适量)”,但实际上,《纽约时报》的该文章并没有提到红酒对心脏有益。相反,《纽约时报》曾在另一篇报道中指出红酒不利于心脏健康。

(Bing Chat的回答中包含“红酒(适量)”)

不仅如此,《纽约时报》还指出,ChatGPT捏造了一篇《纽约时报》从未发布过的题为《研究发现橙汁与非霍奇金淋巴瘤之间可能存在联系》的文章。在被要求提供《纽约时报》关于Covid-19大流行病的报道时,ChatGPT的应用程序接口返回了一个捏造的标题和一条实际不存在的报道超链接。

4.微软和OpenAI构成对《纽约时报》的不正当竞争

《纽约时报》根据普通法,指控被告构成不正当竞争,主要有以下几点理由:

(1)《纽约时报》的报道多为突发新闻,需为新闻报道花费高昂成本;

(2)被告生成与《纽约时报》发布作品相同或近似的内容,被告的大模型与《纽约时报》的作品形成直接竞争关系。同时,被告在模型输出《纽约时报》作品内容时删除特定的文章链接,剥夺《纽约时报》可能获得的广告、推广等收入,使《纽约时报》的权益遭受实际损失。

(3)被告使用《纽约时报》的内容来训练、开发与《纽约时报》相同类型信息文本的模型,与《纽约时报》进行内容和用户的流量争夺,也是对《纽约时报》的搭便车行为。

这题我做过:与我国大众点评诉百度地图案的比较分析

AI模型研发商们,已经不是第一次被控构成不正当竞争了。

在艺术家诉Stability、Midjourney和DeviantArt集体诉讼中,原告亦主张被告构成不正当竞争。在国内,笔神作文也曾在去年发文控诉学而思爬取其作文库数据,疑似用于学而思作文AI助手的模型开发,称学而思构成不正当竞争(据了解,随后双方就该事件达成和解)

但本案也让笔者想到早些年国内的大众点评诉百度地图不正当竞争案[2]

在大众点评诉百度地图案中,大众点评认为,百度根据垂直搜索技术来抓取大众点评的信息,并在百度地图页面直接呈现其抓取的大众点评网的信息,构成了不正当竞争。相比而言,《纽约时报》一案中,OpenAI使用训练数据的行为与垂直搜索技术有一定相似性,更是因为使用了大模型而可以进一步,检索、整合、总结用户想要的内容。

因此,举轻以明重,大众点评诉百度地图案的审判思路,或许仍可以给中国法律背景下,大模型是否构成不正当竞争一定的启发。借鉴大众点评诉百度地图案的判决思路,笔者分析如下:

1.原被告是否具有竞争关系?

在大众点评诉百度地图案中,法院指出,对于竞争关系的判定不应局限于相同行业、相同领域或相同业态模式等固化的要素范围,而应从经营主体具体实施的经营行为出发加以考量。因此,就大模型开发者与不同的经营者主体而言,只要双方存在争夺相同的用户群体,就可能被认定为存在竞争关系。

2.被告是否构成对原告的市场替代?

在《纽约时报》一案中,被告可以直接生成原告的付费订阅内容,且生成内容几乎与原告作品一致,导致用户无需订阅即可查看《纽约时报》的内容,引发原告的用户的订阅收入、广告收入等的减少。因此,被告可能对原告构成市场替代。

3.被告的行为是否具有不正当性?

(1)大模型的爬取、生成内容是否超出必要限度?

在《纽约时报》案中,OpenAI等公司开发的大模型生成与权利人作品几乎一致的内容,未主动附上原作品链接,则可能超出必要限度。

(2)模型在生成内容中直接输出相关新闻报道或文章,是否具有积极效应?是否违反比例原则?

在用户体验方面,不得不承认的是,用户直接向AI产品提问,即可快速获得想要的内容,甚至可以要求其进行分析、概括等,对提升用户体验方面存在一定的积极作用。但同样不得忽视大模型因幻觉杜撰虚假内容而引发的可能对消费者权益造成的损害。

因此,如果以大众点评诉百度地图案来类比《纽约时报》诉OpenAI案,OpenAI构成不正当竞争的可能性较高。

AI生死战:本案为何如此重要?

这起被称为里程碑的诉讼,已经不仅仅是《纽约时报》和OpenAI之间的版权大战那么简单,案件的结果将势必对整个AI行业的发展方向产生深远影响。

如果法院支持《纽约时报》,必定会引发更多新闻出版商对OpenAI提起类似的诉讼,除了面临巨额赔偿,大模型进行数据训练将变得举步维艰,因为要在信息的汪洋大海中一一获得著作权人的“合法授权”极其困难,而数据训练是大模型的“活水之源”“立足之本”,“戴着镣铐跳舞”必将限制了AI发展的步伐。

相反,如果OpenAI胜诉,这无疑将极大鼓励了AI技术研发“大胆干”,但可能也意味着倚赖内容为生的版权商们,将萌生极其强烈的不安全感,冒死爆肝、熬夜秃头创作出来的内容,通过几行提示词就被AI“复制粘贴”出来,这必然也是对传统版权保护法律制度的挑战。

众所周知,AI法律圈内还在对Stable Diffusion案争论不休。传统的知产三法和反法,在新的科技浪潮下何去何从。那句唐顾问常常挂在嘴边的“著**法已死”,是过于激进剧烈情绪宣泄,还是AI冲击之下的真实写照?人机如何共享共荣、大模型数据训练的合法边界在哪?这些问题还有待我们探索。

参考资料:

[1]https://nytco-assets.nytimes.com/2023/12/NYT_Complaint_Dec2023.pdf

[2]上海知识产权法院,(2016)沪73民终242号,北京百度网讯科技有限公司与上海汉涛信息咨询有限公司其他不正当竞争纠纷二审民事判决书

作者简介:

李琪瑶律师,华南理工大学法律硕士研究生,英语专业八级。现为北京市隆安(广州)律师事务所律师,隆安湾区人工智能法律研究中心研究员。李琪瑶律师具有上市公司法务及知识产权代理机构经验,专注于知识产权领域理论研究与实务。

李霏律师,广东警官学院法学学士,现为北京市隆安(广州)律师事务所律师、隆安湾区人工智能法律研究中心研究员。李霏律师服务过多个文化广电旅游体育部门、博物馆以及互联网文化传媒企业,兼具“商业法律+刑事风控”工作思维,擅长企业舆情危机防范及处置,致力于以法律方式实现客户商业目的。

本文来自微信公众号:AI合规圈(ID:gh_344b08562741),作者:李琪瑶、李霏

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
Like (0)
Previous 2024年1月9日
Next 2024年1月9日

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日