用GitHub上的开源代码训练人工智能违法吗?

 
开源代码的特点是都在开源许可证下发布的,既然是开放的,所以用开源代码训练人工智能也不能说必然侵权,但在GitHub上有11种开源许可证,每一种许可证都对使用开源代码者有不同的要求,要求任何衍生作品或许可作品的副本都包含贡献源代码者的信息、版权声明以及其他要求,比如GPL许可证下的代码要求使用者开放其软件中的全部源代码。

近日,人工智能公司OpenAI在开发者大会上宣布[i]:如果用户因人工智能生成内容造成版权侵权被起诉索赔,其将向用户提供版权保护盾:为客户辩护并报销过程中产生的费用。其实OpenAI这招是从微软学来的。而微软,则是因为用了开源软件代码训练人工智能被起诉,迫不得已才想出版权保护盾的办法。今天就来聊聊微软被起诉这个的诉讼,以及用开源代码训练人工智能到底有哪些法律风险。

 

笔者在网上找到了案件的起诉书、微软的答辩意见和美国加利福尼亚北区法院的初步裁定[ii],今天就根据相关内容介绍一下该案。美国是普通法系国家,法院的审判模式和我国有很大区别,所以我对判决书中的判例引用和制度也都不甚了解,只能挑自己看得懂的案件事实和部分说理做摘要。美国法律上的分析可以参考美国律师这篇文章[iii]

 

OpenAI公司开发出一款名为Codex的人工智能生成工具。GitHub推出了基于生成式人工智能的代码自动完成工具Copilot。Copilot是一款面向GitHub用户的订阅工具,月费10美元,年费100美元。根据诉状,Copilot需要Codex才能运行。

2022年11月,两名软件开发者使用化名(为什么用化名起诉,因为有人通过原告律师对原告发出过死亡威胁)提起了假定的集体诉讼,被告为GitHub、微软(作为GitHub的母公司)、OpenAI。原告声称Copilot和Codex作为人工智能工具,其训练中使用了原告受版权保护的计算机代码。

 

开源代码的特点是都在开源许可证下发布的,既然是开放的,所以用开源代码训练人工智能也不能说必然侵权,但在GitHub上有11种开源许可证,每一种许可证都对使用开源代码者有不同的要求,要求任何衍生作品或许可作品的副本都包含贡献源代码者的信息、版权声明以及其他要求,比如GPL许可证下的代码要求使用者开放其软件中的全部源代码。

 

但原告认为,当他们的代码被用作训练数据时,代码附带的开源许可证的版权管理信息(“CMI”Copyright Management Information)被删除了。他们还认定Codex和Copilot生成的作品部分包含了他们受版权保护的代码。原告的诉求包括一系列索赔,违反《数字千年版权法》(DMCA);违反GitHub用户协议;不公平竞争;隐私权侵权等。

 

但原告的起诉有一个证据瑕疵:无法证明Codex和Copilot生成的作品完全复制了原告的代码。法院初步调查的结果是:发现了几处Copilot的输出与Github用户编写的授权代码相匹配(matched)的情况,但这些情况都不涉及原告发布的代码。也就是说,有初步证据证明人工智能输出的内容用了Github上的代码,但本案的原告不是代码的作者,所以无权主张此行为侵权。

 

这些匹配的代码证明原告诉讼事项并非没有依据,故法院在初步裁定书中认定:原告有理由声称,被告的计划至少存在以下重大风险:将复制原告的许可代码并进行输出。

首先,Codex和Copilot的数据训练数据中包括所有公开的GitHub存储库。其次,程序会根据相关提示重现众所周知的代码,并提供几个具体的此类复制的例子。最后,原告声称GitHub自己的内部研究显示,Copilot“大约有1%的时间”从训练数据中复制代码。因此,原告声称的,“如果没有禁令救济,就会存在以下现实危险,Codex或Copilot将复制原告的许可代码作为输出”有一定道理。

 

原告还声称被告修改了Copilot,以确保它不再复制许可证文本、署名和版权声明。法院认为,如果原告的代码是被复制用于输出,其复制方式将违反开源许可证的规定。虽然原告未能证明事实损害足以使其获得部分诉讼资格,但法院还是认可他们有资格以财产权受到损害为由提出损害赔偿,同时要求起诉8项禁令救济。

 

虽然法院的初步裁定驳回了原告的很多诉请,比如隐私权,民事共谋和宣告性救济(civil conspiracy and declaratory relief),但这个诉讼如果继续推进,对被告方而言,其人工智能产品会始终处于被法院认定停止侵权的威胁之下,所以目前案件对谁更有利还不好说。

 

要厘清用开源代码训练人工智能是否侵权的问题,可以看诉状里提到的下面几个问题:

 

一、人工智能是怎么用开源代码训练及输出的?

根据诉状,原告认为人工智能的训练是算法推演,而不是理解代码后生成结果,至少在诉讼的答辩状里,被告方对训练过程、方法都没有进行回应,只是说认为训练属于合理使用。

 

原告认为:Codex和Copilot不能理解代码,与人工智能有关的“研究”“培训”和“学习”等词描述的是与人类推理不同的算法过程。也不能像人类那样“理解”语义和上下文,人工智能模型无法像人类一样“学习”,它能检测其训练数据中具有统计意义的模式,并提供从其训练数据中得出的输出结果,在统计适当的情况下,对数据进行分析。这样的“蛮力”方法既不高效,也不可靠。所以Codex和Copilot不能自己生成代码,他们只是用算法推导出用户想要什么,他们生成的结果是多个来源拼凑的。

 

可能Codex和Copilot这个产品是为了给程序员编程时服务,这个训练的智能跟人类学习区别还是很大的,甚至和ChatGPT生成代码的方式也是不同的。如果诉状所称属实,因为输出的内容都是现成的结果的拼凑,其侵权的可能性确实会比较大。

 

二、GitHub的用户协议有没有限制或禁止训练行为?

所有上传到GitHub的代码均受GitHub用户协议的约束,该协议条款规定用户保留其上传至GitHub的任何内容的所有权,但授予GitHub存储权,对[内容]进行存档、解析和显示,并制作必要的附带副本,以提供服务,包括不断改进服务。

 

根据Github的用户协议:“这包括将代码复制到我们的数据库并进行备份等操作的权利;向您和其他用户提供,将其解析为搜索索引或在我们的服务器上进行其他分析;与其他用户共享。”用户协议还规定,用户如果设置了GitHub将授予每位GitHub用户非独占的、全球范围内的许可通过GitHub服务使用、展示和执行。在GitHub功能允许的情况下,内容只能在GitHub上发布。

 

鉴于用户协议中有代码要“与其他用户共享”的规定,所以,如果代码是开源的,那拿来训练应当也是共享的一种方式,符合用户协议规定。

 

三、人工智能输出的涉及开源代码的内容是不是符合开源协议?

诉状称:尽管GitHub公共存储库中的大部分代码都受到限制其使用的开源许可证的约束,但Codex和Copilot“并未进行编程设计,以将版权归属、版权声明和许可条款视为法律上必需的”,Copilot训练数据并复制作为输出,但没有复制版权归属信息、版权声明和许可条款。这违反了“数万(可能是数百万)软件开发人员”的开源许可证。

 

这里面有三个法律问题,首先是违法问题,根据美国的版权法律[iv]未经版权所有者或法律授权,任何人不得删除或更改版权管理信息。而本案中,代码附带的开源许可证的版权管理信息(“CMI”Copyright Management Information),在训练时被删除了。这里的版权管理信息的范围要比我国《著作权法》规定的署名权要大,因为除了显示作者或项目的名称,开源协议可能还有其他要求,比如公开衍生代码甚至项目的全部代码。

 

其次是违约问题,GitHub上有十一种开源协议[v]。每一种都对使用代码,产生衍生代码有明确的条件,并且复制或者以原有代码衍生新的代码都至少应当载明代码来源,所属的开源许可证,如果版权管理信息被删除,人工智能的开发者就会违反开源协议。

 

还有人工智能使用者侵权的问题。由于版权管理信息被删除,Codex和Copilot的使用者无法判断人工智能生成的代码是否属于开源许可证项下的代码,如果其使用了这些代码,但没有按照开源许可证的要求标明开源代码来源以及其他要求,就会对开源代码的作者构成侵权。可能这也是微软和OpenAi会向其人工智能服务用户提供版权保护盾的原因。

 

最后,本案可以看出人工智能目前处于野蛮生长的状态,创业者只顾产品快速推出,但产品设计中忽视法律风险和更重要的产业生态保护。开源软件作为一个有几十年历史的庞大的产业,标注版权管理信息和遵守开源许可证的规定是产业能够正常运转的核心,而新兴的人工智能产业却只是把开源社区的成果——开源代码全部拿走,但完全不愿遵守法律和开源社区的规则。所以,我的判断是,这种破坏生态式的创新应该不会得到法院的支持。

来源与注释

[i] https://baijiahao.baidu.com/s?id=1781864329601644857&wfr=spider&for=pc

[ii] https://www.skadden.com/-/media/files/publications/2023/05/ruling-on-motion-to-dismiss-sheds-light/govuscourtscand403220950.pdf?rev=4e26e0aee78a4ff49aa30cabfcb265f6&hash=8D62FF3579B6D474BCA1E9E495233E76

[iii] https://www.jdsupra.com/legalnews/ruling-on-motion-to-dismiss-sheds-light-6984451/

[iv] https://www.law.cornell.edu/uscode/text/17/1202

[v] 这十一种开源许可证为:(1)Apache License 2.0;(2) GNU General Public License version;(3) MIT; (4) BSD 2;(5) BSD 3;(6) Boost Software License (“BSL-1.0”) (7) Eclipse Public License 2.0; (8) GNU Affero General Public License version 3 (“AGPL-3.0”) ;(9)General Public License version 2 (“GPL 2”) ;(10) GNU Lesser General Public License version 2.1  (“LGPL-2.1”) ;(11) Mozilla Public License 2.0(“GPL-3.0”)。

 

本文作者:游云庭(上海大邦律师事务所高级合伙人、知识产权律师)。电话:8621-52134900,Email: yytbest@gmail.com,本文仅代表作者观点。

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
(0)
上一篇 2023年11月10日
下一篇 2023年11月10日

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日