OpenAI抛出合作之“饼”，纽约时报们会吃吗？

2024年1月11日 19:25 • 未来科技

再表态时，OpenAI也不客气，发长文，抛出四个关键点：

1、OpenAI愿意和新闻机构合作并创造新机会。

其次，OpenAI“杀人诛心”，否定了《纽约时报》一家媒体在ChatGPT训练中的重要性：“由于模型是从人类知识的巨大集合中学习的，因此任何一个部门（包括新闻）都只是整体训练数据的一小部分，而任何单一数据源（包括《纽约时报》）对于模型的预期学习并不重要。

OpenAI和《纽约时报》的互掐，越来越有看头了。

当地时间1月9日，OpenAI终于打破了近两周的沉默，公开发表长文回应《纽约时报》的指控。去年12月27日，《纽约时报》在美国起诉ChatGPT制造商OpenAI及其合作伙伴微软，指控后者未经许可使用数百万篇文章训练AI。

这次OpenAI的回应不是白开水般的公关措辞，而是犀利地指出，《纽约时报》没有讲述完整的经过，且有故意操纵ChatGPT回答结果之嫌，整个诉讼毫无根据。

一边是代表着新科技的ChatGPT，一边是代表着老牌新闻机构的《纽约时报》，二者对簿公堂，原本就是注定写进科技史的事件。如今OpenAI颇为“头铁”的回应，更是为事件火上浇油。

回头看，不管是广播、电视还是互联网，只要是新的媒介产生，都会与内容版权方产生利益拉扯，其中又尤以新闻业最为激烈。

整整10年前，在中国，正在崛起的今日头条也被《广州日报》告上法庭，其后多个新闻机构、门户网站跟进，大有群起而攻之的气势。事件双方的矛盾与如今AI与新闻媒体之间的如出一辙。

那场纷争，最后以今日头条大力购买版权而逐渐平息，“合作”是张一鸣摆出的路径。两年后，今日头条覆盖的媒体已达3700余家，每年在版权采购商的投入超过15亿元。

无独有偶，OpenAI如今高举的依然是“合作”的旗帜。在对《纽约时报》毫不客气地回怼之余，也强调了“可退出”原则，以及与新闻机构合作的强烈意愿。

但这次，《纽约时报》们只会更加谨慎——直到现在，社交媒体如Facebook、搜索引擎如谷歌等与新闻业仍旧没有达成一致，新闻业想要从平台获得更多分成，而平台则不愿轻易配合。

OpenAI抛出合作之“饼”，《纽约时报》们可能不会轻易吃下了。

一

OpenAI和《纽约时报》，都握紧了拳头。

自ChatGPT在2022年底推出以来，OpenAI没少吃版权官司。去年9月，就有十余名作家对OpenAI提起诉讼，几个月后的12月，又有11名美国作家在纽约曼哈顿联邦法院起诉OpenAI和微软。

但《纽约时报》的诉状，分量毕竟不同。一来，《纽约时报》本身是西方最主流、最大的老牌媒体之一，二来，《纽约时报》的起诉来势汹汹。

起诉OpenAI，《纽约时报》一口气向法院提交了22000页的附件和状书，其中对ChatGPT侵权的关键证据多达100个，显示ChatGPT输出的内容和《纽约时报》高度相似。

在一个典型的证据片段中，左边是GPT-4的输出结果，右边是《纽约时报》原文，重合的文字以红色显示，像极了中文互联网上每次“锤”抄袭时会用的“调色盘”技能。

诉状中表示，《纽约时报》的文章构成了Common Crawl中用于训练GPT的最大单个专有数据集（Common Crawl 是一个基金会，16年来已经几乎存档了整个网络）。《纽约时报》要求OpenAI和微软销毁包含侵权材料的模型和训练数据，没有提出具体索赔金额，但表示被告应该对非法复制和使用《纽约时报》独有价值的作品相关的“数十亿美元的法定和实际损失”负责。

除此之外，《纽约时报》还指出，由于AI“幻觉”，ChatGPT有时会将一些假新闻、谣言“张冠李戴”，说成是出自《纽约时报》的，对其名誉造成损害。

《纽约时报》有备而来，重拳出击，提起上诉的当天还自己出了高调的报道，打得OpenAI措手不及。OpenAI后来也说，本来在12月已经在和OpenAI就版权问题沟通合作方案了，没想到对方转手就是一记耳光。

再表态时，OpenAI也不客气，发长文，抛出四个关键点：

1、OpenAI愿意和新闻机构合作并创造新机会；

2、使用公开的互联网材料训练AI模型是合理的，但OpenAI还是提供了退出机制；

3、反刍事实（regurgitate facts）确实是一种罕见的错误，OpenAI正在努力将其减少到零；

4、《纽约时报》没有完整讲述故事，其诉讼毫无根据。

其中提到的“反刍”，就是指AI将训练物料原封不动地“吐出来”，就像《纽约时报》所列举的那样，AI的回答和《纽约时报》的文章几乎一字不差。OpenAI的立场是，“反刍”现象的确存在，但OpenAI已经将其程度降到很低，《纽约时报》一下拿出上百个“反刍”例子，是很可疑的。

因此，OpenAI怀疑：“有趣的是，《纽约时报》提到的反刍似乎来自多个第三方网站上大量传播的多年前的文章。他们似乎故意操纵提示，通常包括冗长的文章摘录，以便让我们的模型反刍。即使使用这样的提示，我们的模型通常也不会像《纽约时报》暗示的那样表现，这表明他们要么指示模型反刍，要么从多次尝试中精心挑选示例。”

总而言之就是：说我家孩子偷东西？我看是你塞孩子手里、搞栽赃吧？

除此之外，OpenAI的回应中还有两点值得玩味。

首先，OpenAI强调了“退出”机制，并指出《纽约时报》早在去年8月就已经采用退出流程。实际上，《纽约时报》、路透社、CNN等在内的多家主流新闻媒体都已在去年起屏蔽OpenAI的GPTBot网络爬虫，以限制其继续获取这些媒体的内容。

其次，OpenAI“杀人诛心”，否定了《纽约时报》一家媒体在ChatGPT训练中的重要性：“由于模型是从人类知识的巨大集合中学习的，因此任何一个部门（包括新闻）都只是整体训练数据的一小部分，而任何单一数据源（包括《纽约时报》）对于模型的预期学习并不重要。”

“我不是、我没有、你别瞎说啊”的否认三连，放在OpenAI身上正合适。

二

既然AI已经是未来趋势，OpenAI也有意愿合作，《纽约时报》为何还要大动干戈？

“人工智能30%都来源于新闻业。让我们不要再犯同样的错误、再一次免费地付出一切。”“我们的内容正在被盗窃，我们必须说：这次不行。”《媒体创新2023年世界报告》中写道。

“不要犯同样的错误”，类似的措辞，当OpenAI的CEO山姆·阿尔特曼坐在美国国会听证席上时也听到过。彼时国会议员数次表达后悔，称不能重蹈社交媒体时代的覆辙。社交媒体时代，监管被远远落在科技发展之后，扎克伯格2018年首次因“剑桥丑闻”坐上国会听证席时，Facebook已经推出14年。

从某种角度来说，OpenAI的确是站在了巨人的肩膀上——有了前车之鉴，ChatGPT一朝出名，立刻引来四方警惕。

《纽约时报》们也不想重蹈覆辙。在搜索引擎和社交媒体成为流量入口的时代，传统媒体艰难转型，也曾和大型科技平台达成“合作”，但后来却觉得这不“值”。

Facebook很早就和传统媒体展开合作，《纽约时报》也是首批入驻的媒体，那时的合作模式是利润分成，分发在Facebook的平台完成。但随着2018年Facebook和谷歌母公司获得美国数字广告收入的60%，媒体机构开始觉得自己被夺走得太多、得到的却太少。

2019年，《纽约时报》曾发布报道：美国新闻业数字广告年收入51亿美元，而谷歌提供聚合新闻服务所获得的数字广告收入47亿美元。

新闻出版商在多个国家和地区争取更多利益。2020年，澳大利亚政府成为第一个要求Facebook和谷歌为新闻内容付费的国家。2023年，加拿大也通过了《在线新闻法》，随后谷歌与当局达成协议，同意向加拿大新闻出版商支付7400万美元。而Facebook的制造商Meta却拒绝妥协，干脆不在加拿大当地屏蔽新闻内容。美国《新闻竞争与保护法案》也曾在国会推进，但未获得全体投票机会。

撰写《媒体创新2023年世界报告》的创新媒体咨询集团创始人胡安·赛诺在演讲中直言：“我们不能在别人的平台上建立自己的业务，无论是Facebook还是谷歌，大型科技公司并不关心我们的利益。”“他们有自己的利益，为什么要指望他们照顾我们的利益呢？形式主义盛行，收入却太少。”

要知道，《纽约时报》本身是在纸媒衰落之时浴火重生的榜样，2008年次贷危机后，其一度抵押总部大楼借款，甚至多方出手想要将其收购。随着大举进行数字化转型，推出付费订阅模式，《纽约时报》最终扭亏为盈。在2022年，《纽约时报》超过六成收入都来自付费订阅。

由此，也就不难理解《纽约时报》要和OpenAI“鱼死网破”的架势从何而来：“合作”说起来简单，但怎么合作才能保证《纽约时报》们原有的利益不受侵害、新的商机不被夺走？问号很多，答案寥寥。

“利用《纽约时报》在报道中的巨大投入，在搭新闻行业的便车。”《纽约时报》的怨气，不仅来自“初出茅庐”的ChatGPT。

三

对于OpenAI来说，这注定是一场硬仗。

除了多点爆发的版权之争，欧洲已经于去年6月表决通过《AI法案》草案。根据该法案，OpenAI等厂商需要公开在训练模型过程中使用的受版权保护的版权数据清单。

虽然在此次的声明中强调《纽约时报》“不重要”，但版权内容对于OpenAI的大模型训练还是很重要的。

在前不久提交给英国上议院通信和数字事务特别委员会关于大语言模型调查的文件中，OpenAI承认，像ChatGPT这样的AI工具的开发离不开受版权保护的素材，并称如果没有这些素材，GPT根本无法诞生：“由于当前版权涵盖了几乎所有形式的人类表达方式，包括博客文章、照片、论坛帖子、软件代码片段和政府文件，如果不使用受版权保护的内容，就不可能训练当今领先的人工智能模型。”

在和《纽约时报》隔空互怼的同时，OpenAI也在积极推进与新闻业的“合作”，已经取得部分成果。

去年12月，《纽约时报》起诉OpenAI前不久，OpenAI与德国新闻出版巨头阿克塞尔·施普林格（Axel Springer）达成合作。施普林格是欧洲最大的数字出版公司，旗下拥有包括Business Insider、《世界报》等在内的知名新闻品牌。

双方签订为期多年的协议，ChatGPT可以在回复中给用户提供施普林格新闻媒体的报道摘要，包含原始出处和链接，保证新闻网站获得流量。同时，施普林格的内容将被OpenAI用于训练模型。Information援引知情人士称，该交易的规模在上千亿美元左右。

这已经是OpenAI与新闻机构达成的第二个大型合作，同年7月其曾与美联社达成类似协议，金额未公开。

竞争也会进一步推高新闻采集的成本。去年12月，媒体报道苹果已经和多家主要出版商达成协议，采集其新闻内容训练AI模型。报道称，苹果已经和NBC新闻、IAC等多家机构接洽，拟议交易金额至少5000万美元。

仅仅勾一勾“广告分成”的手指头，就引来主流媒体争相入驻，那种“好时代”属于社交媒体和搜索引擎。如今的OpenAI们，不得不画更大、更香的饼。

参考资料：

[1]36氪：《纽约时报：从危机中崛起重返全球媒体之巅》

[2]iweekly周末画报：《挽救新闻业，谷歌同意向加拿大新闻出版商付费》

[3]腾讯科技：《Facebook将推新闻标签拟斥资数百万美元从媒体购买版权》

[4]界面新闻：《OpenAI与出版界巨头达成合作，这项交易能否为新闻业带来进化吗？》

[5]北京日报：《手机APP“今日头条”肆意抓取新闻陷侵权漩涡》

本文来自微信公众号：字母榜（ID：wujicaijing），作者：谭宵寒

声明：该内容为作者独立观点，不代表新零售资讯观点或立场，文章为网友投稿上传，版权归原作者所有，未经允许不得转载。新零售资讯站仅提供信息存储服务，如发现文章、图片等侵权行为，侵权责任由作者本人承担。如对本稿件有异议或投诉，请联系：wuchangxu@youzan.com

Like (0)

从年度账单看见企业降本支点

Previous 2024年1月11日

GPT Store的未来，是“竞价排名”的灰色产业链？

Next 2024年1月11日

水温80度：AI行业真假繁荣的临界点

我们从来没拥有过这么成功的AI主导的产品。

（这种分析统计并不那么准，但大致数量级是差不多的）

这两个产品碰巧可以用来比较有两个原因：

一个是它们在本质上是一种东西，只不过一个更通用，一个更垂直。

蓝海的海峡

未来成功的AI产品是什么样，大致形态已经比较清楚了，从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时“罢工”，全网打工人都慌了

美西时间午夜12点开始，陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载，忽然无法正常工作了。

因为发现AI用久了，导致现在“离了ChatGPT，大脑根本无法运转”。”

等等，又不是只有一个聊天机器人，难道地球离了ChatGPT就不转了。

大模型连崩原因猜想，谷歌躺赢流量激增6成

GPT归位，人们的工作终于又恢复了秩序。

未来科技 2024年6月5日
ChatGPT宕机8小时，谷歌Gemini搜索量激增60%

ChatGPT一天宕机两次

谷歌Gemini搜索量激增近60%

ChatGPT在全球拥有约1.8亿活跃用户，已成为部分人群工作流程的关键部分。

过去24小时内提交的关于OpenAI宕机的问题报告

图片来源：Downdetector

ChatGPT系统崩溃后，有网友在社交媒体X上发帖警告道：“ChatGPT最近发生的2.5小时全球中断，为我们所有依赖AI工具来支持业务的人敲响了警钟。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时大崩溃，AI集体罢工让全网都慌了

接着OpenAI也在官网更新了恢复服务公告，表示“我们经历了一次重大故障，影响了所有ChatGPT用户的所有计划。Generator调查显示，在ChatGPT首次故障后的四小时内，谷歌AI聊天机器人Gemini搜索量激增60%，达到327058次。

而且研究团队表示，“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关，显示出用户把Gemini视为ChatGPT的直接替代选项。

未来科技 2024年6月5日
深度对话苹果iPad团队：玻璃的传承与演变

iPad最为原始的外观专利

没错，这就是iPad最初被设想的样子：全面屏，圆角矩形，纤薄，就像一片掌心里的玻璃。

2010年发布的初代iPad

好在乔布斯的遗志，并未被iPad团队遗忘。

初代iPad宣传片画面

乔布斯赞同这一想法，于是快速将资源投入平板电脑项目，意欲打造一款与众不同的「上网本」，这就是iPad早年的产品定义。

iPad进化的底色

苹果发布会留下过很多「名场面」，初代iPad发布会的末尾就是一例。

未来科技 2024年6月5日
底层逻辑未通，影视业的AI革命正在褪色…

GPT、Sora均为革命性产品，引发了舆论风暴，但它在上个月发布的“多模态语音对谈”Sky语音，却由于声音太像电影明星斯嘉丽·约翰逊，被正主强烈警告，被迫下架。

华尔街日报也在唱衰，认为“AI工具创新步伐正在放缓，实用性有限，运行成本过高”：

首先，互联网上已经没有更多额外的数据供人工智能模型收集、训练。

03、

如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向，那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

但分歧点正在于此，电影公司希望通过使用AI技术来降低成本，但又不希望自己的内容被AI公司所窃取。

未来科技 2024年6月5日
KAN会引起大模型的范式转变吗？

“先变后加”代替“先加后变”的设计，使得KAN的每一个连接都相当于一个“小型网络”，能实现更强的表达能力。

KAN的主要贡献在于，在当前深度学习的背景下重新审视K氏表示定理，将上述创新网络泛化到任意宽度和深度，并以科学发现为目标进行了一系列实验，展示了其作为“AI+科学”基础模型的潜在作用。

KAN与MLP的对照表：

KAN使神经元之间的非线性转变更加细粒度和多样化。

未来科技 2024年6月5日
这个国家，也开始发芯片补贴了

//mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
[4]中国安防协会：欧盟批准430亿欧元芯片补贴计划：2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
[6]潮电穿戴：印度半导体投资大跃进，一锤砸下1090亿，政府补贴一半.2024.3.5https。

未来科技 2024年6月5日
大模型的电力经济学：中国AI需要多少电力？

这些报告研究对象（数字中心、智能数据中心、加密货币等）、研究市场（全球、中国与美国等）、研究周期（多数截至2030年）各不相同，但基本逻辑大同小异：先根据芯片等硬件的算力与功率，计算出数据中心的用电量，再根据算力增长的预期、芯片能效提升的预期，以及数据中心能效（PUE）提升的预期，来推测未来一段时间内智能数据中心的用电量增长情况。

未来科技 2024年6月5日
你正和20万人一起接受AI面试

原本客户还担心候选人能否接受AI面试这件事，但在2020年以后，候选人进行AI面试的过程已经是完全自动化的，包括面试过程中AI面试官回答候选人的问题，AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

以近屿智能与客户合作的校验周期至少3年来看，方小雷认为AI应用不太可能一下子爆发，包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

未来科技 2024年6月4日

OpenAI抛出合作之“饼”，纽约时报们会吃吗？

相关推荐