OpenAI反驳《纽约时报》起诉的声明,站得住脚吗?

2023年底,《纽约时报》起诉ChatGPT的开发者OpenAI和其伙伴微软公司的案件引发了全球关注,近日OpenAI基金会在公司网站发布博客《OpenAI与新闻业》[i],称:我们支持新闻业,与新闻机构合作,并认为《纽约时报》的诉讼毫无根据。ChatGPT中显示实时内容并注明出处,为新闻出版商提供与读者联系的新方式”只是他们的想法,现实的情况恰恰相反,《纽约时报》起诉OpenAI的诉状第184段也提到:根据原告获得的信息和观点,被告在建立包含数百万份《纽约时报》的训练数据集中删除了《纽约时报》的版权管理信息(“CMI”Copyright。

2023年底,《纽约时报》起诉ChatGPT的开发者OpenAI和其伙伴微软公司的案件引发了全球关注,近日OpenAI基金会在公司网站发布博客《OpenAI与新闻业》[i],称:我们支持新闻业,与新闻机构合作,并认为《纽约时报》的诉讼毫无根据。

今天就结合该博客的内容,跟大家分享一下笔者的看法。

 

OpenAI称,我们的目标是开发人工智能工具,让人们有能力解决那些遥不可及的问题。世界各地的人已经在使用我们的技术来改善他们的日常生活。如今,数百万开发人员和超过92%的财富500强企业都在使用我们的产品。虽然我们不同意《纽约时报》诉讼中的说法,但我们认为这是一个澄清我们的业务、意图以及我们如何构建技术的机会。

OpenAI的立场可以概括为以下四点:

 

一、我们与新闻机构合作,创造新的机会

我们在技术设计过程中努力为新闻机构提供支持。我们已经与数十家新闻机构以及新闻/媒体联盟等领先的行业组织会面,探讨机会,讨论他们的担忧,并提供解决方案。我们的目标是学习、教育、听取反馈并进行调整。

 

我们的目标是支持健康的新闻生态系统,成为良好的合作伙伴,创造互惠互利的机会。有鉴于此,我们寻求与新闻机构建立合作伙伴关系,以实现这些目标:

 

部署我们的产品,通过协助分析大量公共记录和翻译报道等耗时的任务,为记者和编辑提供帮助和支持。通过对更多历史、非公开内容的训练,让我们的人工智能模型了解世界。在ChatGPT中显示实时内容并注明出处,为新闻出版商提供与读者联系的新方式。我们与美联社、阿克塞尔-施普林格(Axel Springer)、美国新闻项目(American Journalism Project)和纽约大学(NYU)的早期合作让我们了解了我们的方法。

 

笔者的评注:这部分内容说的是OpenAI人工智能服务的正向价值。但“在 ChatGPT中显示实时内容并注明出处,为新闻出版商提供与读者联系的新方式”只是他们的想法,现实的情况恰恰相反,《纽约时报》起诉OpenAI的诉状第184段也提到:根据原告获得的信息和观点,被告在建立包含数百万份《纽约时报》的训练数据集中删除了《纽约时报》的版权管理信息(“CMI”Copyright Management Information),包括《纽约时报》作品以及从第三方数据集中复制的《纽约时报》作品。

 

笔者在介绍开源软件开发人员起诉OpenAI的文章《用GitHub上的开源代码训练人工智能违法吗?[ii]一文中提到过“原告认为,当他们的代码被用作训练数据时,代码附带的开源许可证的版权管理信息被(OpenAI)删除了。

 

二、训练是合理使用,但我们提供了退出选项,因为这样做是正确的

利用公开的互联网资料训练人工智能模型,属于合理使用,这一点得到了长期广泛接受的先例支持。我们认为这一原则对创造者是公平的,对创新者是必要的,对美国的竞争力也是至关重要的。

 

最近向美国版权局提交意见的众多学者、图书馆协会、民间社会团体、初创企业、美国领先公司、创作者、作者等都支持允许将训练人工智能模型作为合理使用的原则。其他地区和国家,包括欧盟、日本、新加坡和以色列,也有允许在受版权保护的内容上训练模型的法律–这是人工智能创新、进步和投资的优势。

 

尽管如此,对我们来说,法律权利并不重要,重要的是做一个好公民。我们在人工智能行业中处于领先地位,为出版商提供了一个简单的退出程序(《纽约时报》于 2023 年8月采用了这一程序),以防止我们的工具访问他们的网站。

 

笔者的评注:著作权法上的合理使用是要有法律明确规定的,比如OpenAI举例中的日本《著作权法》就确实有这个规定,我国《著作权法》第24条也规定了合理使用,比如为个人学习研究欣赏使用、为介绍评论作品或说明问题适当引用,媒体不可避免再现或引用作品、教学科研使用,但不得出版发行等13种情况。

 

但就人工智能使用他人版权作品,笔者个人认为较难归入上述合理使用法定情形。当然,就像前不久北京互联网法院为了保护新兴产业,认定产生人工智能图画的提示词受版权保护一样,不排除此类案件法院审理中认为人工智能作为新生事物需要保护,也将其归入某一种合理使用的可能性。

 

关于“为出版商提供了一个简单的退出程序”,其实是一个爬虫屏蔽功能[iii],只要在网站的Robots.txt文件中加入屏蔽OpenAI爬虫的描述,OpenAI就不会抓取网站的内容进行训练。这个功能的使用方法和网站屏蔽搜索引擎爬虫的功能基本一样。

 

但《纽约时报》起诉OpenAI可不是屏蔽爬虫那么简单的事情。首先,谷歌百度这样的搜索引擎,其爬取网站的内容后会给网站引流,引导用户访问被爬取内容的网站,用户或者点击网站的广告,或者支付费用访问付费墙后的新闻,达到搜索引擎和网站双赢的生态效果。而OpenAI的做法并非如此,笔者在《〈纽约时报〉起诉了OpenAI和微软哪些侵权行为?[iv]一文中有描述:

 

不同于传统搜索引擎只显示网页摘要,(由OpenAI支持的)必应搜索引擎页面上的“合成”搜索结果可以直接回答用户查询,并且可能将《纽约时报》报道中广泛的内容进行释义和直接引用。对于《纽约时报》而言,这种方式实际意味着替代,用户无需访问其网站就可以使用他们的内容,这将导致商业利益受损。

 

三、“反流”是一个罕见的错误,我们正在努力将其消灭为零

我们设计和训练模型的目的是学习概念,以便将其应用于新问题。死记硬背是学习过程中的一种罕见故障,我们正在不断加以解决,但当特定内容在训练数据中出现不止一次时,这种故障就比较常见了。例如,如果这些内容的片段出现在许多不同的公共网站上。

因此,我们采取了一些措施来限制无意中的记忆,防止在模型输出中出现重复内容。我们也希望我们的用户能够负责任地行事;故意操纵我们的模型进行反流(反流,英文为Regurgitation,医学名词,也称“反刍”,指经过咀嚼的食物从胃返回到嘴里,笔者注)不是对我们技术的适当使用,也违反了我们的使用条款。

 

正如人类接受广泛的教育以学习如何解决新问题一样,我们也希望我们的人工智能模型能观察到世界上的各种信息,包括来自各种语言、文化和行业的信息。由于模型是从人类知识的巨大集合中学习的,因此任何一个领域–包括新闻–都只是整个训练数据的一小部分,任何一个数据源——包括《纽约时报》——对模型的专门学习都没有意义。

 

笔者的评注:包括OpenAI[v]、 Meta在内的大语言模型公司都认为,人工智能接受数据的训练方式不同于计算机的简单复制,而是通过大量数据的训练,了解每个词在不同环境下的各种含义,因此其并不包含或者存储训练的数据副本。所以训练数据对模型的意义主要在于,帮助模型更好地理解单词的意义,这也是OpenAI断言新闻数据和《纽约时报》数据源对于模型的专门学习都没有意义的原因。

 

OpenAI认为,其已经采取了一些措施来限制无意中的记忆,防止在模型输出中出现重复内容,其社交媒体上确实也有这个记录[vi]。但《纽约时报》证明,输入提示词,ChatGPT就可以把其原始新闻反馈给用户。前一部分中,OpenAI说《纽约时报》已经于2023年8月屏蔽了其爬虫,但《纽约时报》诉状中列举的巴以冲突的新闻证据是10月份的,所以OpenAI在博客中说,这些内容不仅出现在《纽约时报》网站,也出现在许多不同的公共网站上。

 

同时,OpenAI还认为,《纽约时报》取证时故意操纵ChatGPT进行反流,违反了其用户条款。故意操纵应该指《纽约时报》取证时的提示词是特殊的,比如新闻的第一句话,而非用户常用的“提供加沙战争新闻”及类似方式。这里的用户条款应该指的是其用户协议中的规定[vii]不得将OpenAI的服务用于任何非法、有害或滥用行为。例如,以侵犯、盗用或违反他人权利的方式使用我们的服务。可能OpenAI认为用户利用其技术漏洞输入提示词得到侵犯版权的训练材料信息,也属于以侵权方式使用其服务。

 

四、《纽约时报》没有讲述全部故事

在12月19日的最后一次沟通中,我们与《纽约时报》的讨论似乎取得了建设性进展。谈判的重点是围绕 ChatGPT中的实时显示和归因建立高价值的合作伙伴关系,《纽约时报》将通过这种新方式与他们的现有读者和新读者建立联系,而我们的用户则可以访问他们的报道。

我们曾向《纽约时报》解释说,与任何单一来源一样,他们的内容对我们现有模型的训练没有任何意义,对未来的训练也没有足够的影响。他们在12月27日提起的诉讼,我们是通过阅读《纽约时报》得知的,让我们感到意外和失望。

 

一路走来,他们曾提到看到一些重复他们内容的情况,但一再拒绝分享任何实例,尽管我们承诺调查并解决任何问题。我们已经证明了我们是如何认真对待这一优先事项的,例如在 7 月份,当我们得知 ChatGPT功能可能会以非预期的方式复制实时内容后,我们立即关闭了该功能。

 

有趣的是,《纽约时报》诱导转载的内容似乎来自多年前的文章,而这些文章已在多个第三方网站上泛滥。为了让我们的模型进行反流,他们似乎有意篡改了提示语,通常包括冗长的文章节选。即使在使用此类提示时,我们的模型通常也不会像《纽约时报》影射的那样,这表明他们要么是指示模型进行反流,要么是从众多尝试中挑选出的例子。

 

尽管《纽约时报》声称,这种误用并非典型或允许的用户行为,也不能替代《纽约时报》。无论如何,我们正在不断提高我们系统的抗逆性,以抵御反流训练数据的攻击,并已在我们最近的模型中取得了很大进展。

 

我们认为《纽约时报》的诉讼毫无根据。尽管如此,我们仍希望与《纽约时报》建立建设性的合作关系,并尊重其悠久的历史,其中包括 60 多年前报道第一个工作神经网络和捍卫第一修正案规定的自由。

 

我们期待与新闻机构继续合作,通过实现人工智能的变革潜力,帮助提升他们制作高质量新闻的能力。

 

笔者的评注:这部分除了介绍诉讼前双方的交流,其他内容主要是总结,OpenAI告诉大家,他们有技术措施防止受版权保护的训练素材被重现给用户,他们还是希望和《纽约时报》合作并帮助新闻行业。

参考资料:

[i] https://openai.com/blog/openai-and-journalism

[ii] https://mp.weixin.qq.com/s/1TTkYh2yJZgd_CSCbtdgkw

[iii] https://platform.openai.com/docs/gptbot

[iv] https://mp.weixin.qq.com/s/mTwdFVs5wCV7hMdyOCasLQ

[v]  https://www.regulations.gov/comment/COLC-2023-0006-8906

[vi] https://twitter.com/OpenAI/status/1676072388436594688

[vii] https://openai.com/policies/terms-of-use

本文作者:游云庭,上海大邦律师事务所高级合伙人,知识产权律师。电话:8621-52134900,Email: yytbest@gmail.com,本文仅代表作者观点。

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
Like (0)
Previous 2024年1月9日
Next 2024年1月9日

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日