OpenAI，困于数据短缺

2024年4月10日 15:22 • 未来科技

大语言模型训练数据规模

数据规模固然重要，但数据质量也同样不容忽视，有失偏颇的数据可能会造成潜在的刻板歧视和偏见，比如最近引起巨大争议的Meta图像生成案，不能生成白人女性和亚洲男性同框的图像。

合成数据是一种通过算法或计算机模型生成的数据，它模拟实际情况，但无需通过收集实际数据来实现，而是让AI自己生成文本、图像、代码再反哺给自己的训练系统，生成现实世界中难以获取的数据。

大模型就要没弹药了，训练数据成为大模型升级的最大拦路虎。

《纽约时报》报道，为了训练GPT-4，OpenAI使用其旗下语音转文字模型Whisper挖掘了超100万小时的YouTube数据作为其训练模型。而另一端，社交媒体巨头Meta高层也在讨论收购出版社 Simon & Schuster来完成基础模型对高质量训练数据的需求。

但即使如此，现有人类社会生成的包含社交文本在内的互联网数据也不能够支持大语言模型的优化升级。研究机构Epoch报告，在未来两年内，AI训练将用尽互联网上包含音视频在内的高质量数据格式，而现存（包括未来生成的）数据集或将在2030年至2060年之间耗尽。

除了物理世界现实存在的数据，科技公司还考虑使用合成数据作为AI训练材料。合成数据就是用AI生成的数据训练大语言模型。不过，合成数据也就意味着更高的计算费用和人才支出，这也让本就高昂的AI成本雪上加霜。

一、最优的数据，最好的大模型

据悉，GPT-4有着超1.8万亿参数和13万亿token的训练数据。

13万亿，相当于自1962年开始收集书籍的牛津大学博德利图书馆存储的单词数量的12.5倍。这些数据来源于新闻报道、数字书籍、Facebook社交平台数据。不过在这之前，我们并不知道还有基于视频转录的文字。据传，Google模型也使用了Youtube转译的文字作为其大模型训练数据。

不止ChatGPT，市面上的大模型都是建立在上亿级模型的训练基础上的。谷歌的 BERT是在英语维基百科和BookCorpus中包含33亿单词的数据集上进行训练的，微软的 Turing-NLG是在英语网页中超过170亿个词组的数据集上进行训练的。

可以说，数据就是AI模型的燃料。根据标度定律（scaling law），训练模型的数据越丰富，来源愈丰富、异质化愈强，模型的质量越高，语义理解能力越强。这不难理解，AI就像是一个小孩，需要学习大量的课本、报道，而一个学生学习掌握的知识越多，一定程度上就越聪明，能处理的任务就越多。

大模型的数据训练是一个迭代的过程。2020年之前，大部分的AI模型数据量相对较小，大多在1000万以下。举个例子，GPT2的训练数据就是40G，GPT3的训练数据则高达570G，约为GPT2的15倍。高达3000亿token的GPT-3开启了大语言模型千亿级token训练的先河。

大语言模型训练数据规模

Meta图像生成器拒绝生成亚洲男性和白人女性的图片

所以，AI的训练数据不仅强调量大，更强调样本的异质性，代表的多样性。OpenA负责人Peter Deng就曾说过，训练AI的数据最好能够体现不同民族、不同文化的价值观，大模型发展应该避免民族中心主义和文化霸权，特定来源的训练材料总是有失偏颇的。

最优的大模型需要最好的数据，但是数据也不是天上掉下来的免费午餐。随着模型升级和巨头之间的科技军备赛的白热化，限制LLM发展的最大拦路虎不再是技术本身，而是最关键的也是最容易忽略的因素——数据。

二、供不应求，LLM训练遭遇数据困境

现阶段的AI训练数据主要包括新闻报道、虚构作品、留言板帖子、维基百科文章、计算机程序、照片和播客，比如common crawl，一家从2007年以来收集了超2500亿网页文章的数据库，有1000TB的数据量。

当下的LLM数据困境，主要体现在两个方面：

一是高质量数据的规模有限。高质量数据通常包括出版书籍、文学作品、学术论文、学校课本、权威媒体的新闻报道、维基百科、百度百科等，经过时间、人类验证过的文本、视频、音频等数据。

与大模型训练数据规模每年翻倍不同，这些高质量数据的增长非常缓慢。以出版社书籍为例，需要经过市场调研、初稿、编辑、再审等繁琐流程，耗费几个月甚至几年时间才能出版一本书。这意味着，高质量数据的产出速度，远远落后大模型训练数据需求的增长。

研究机构Epoch称，科技公司或将在2026年使用完互联网上所有可用于模型训练的高质量数据，包括维基百科、学术期刊论文等高质量数据文本。同时，AI公司使用数据的速度比社会生成数据的速度要快，该机构预计在2030-2060年之间，能用于AI训练的人类数据将会全部耗尽。

除了高质量数据本身有限外，这些数据获得难度也在大大提升。由于担心平补偿等问题，社交媒体平台、新闻出版商和其他公司一直在限制AI公司，使用自家平台数据进行人工智能训练。

去年7月，Reddit 就表示将大幅提高访问其 API 的费用。该公司的管理人员表示，这些变化是对人工智能公司窃取其数据的回应。Reddit 创始人兼首席执行官 Steve Huffman 告诉《纽约时报》：“Reddit 的数据库真的很有价值。”“但我们不需要把所有这些价值都免费提供给一些全球最大的公司。”

此前，OpenAI也曾因未经授权使用新闻报道与《纽约时报》打了官司，英伟达也因未经授权使用原创小说遭到美国作家的联合诉讼。

总的来说，大模型企业已经基本上搜刮了电子数据、新闻报道、社交媒体数据等所有能够想到的数据来源。而部分明确受到保护的版权作品，科技巨头在短时间内也难以征得其训练版权。同时，高昂的版权费可能也会令目前盈利能力微弱的AI公司捉襟见肘。

在这种情况下，科技巨头纷纷殚精竭虑寻找优质训练数据喂给自身模型，也就有了OpenAI采集超百万小时YouTube数据，为GPT-4提供训练素材的故事了。

据了解，OpenAI的数据收集策略并不仅限于YouTube视频。该公司还从Github的计算机代码、国际象棋走棋数据库以及Quizlet的作业内容中获取数据。OpenAI发言人Lindsay Held在一封电子邮件中透露，公司为其每个模型都策划了独特的数据集，以保持其全球研究竞争力。

在最近的一次高层管理会议中，Meta高管甚至还建议收购出版社 Simon & Schuster以采购包括史蒂芬金等知名作家作品在内的长篇小说为其AI模型提供训练数据。

出于法律风险、成本等因素的考量，越来越多公司开始尝试自己制作的训练数据——合成数据。

三、AI合成，会是模型训练的救命稻草吗？

这并不是一个新的概念。合成数据在自动驾驶等领域有着广泛应用。比如，车企可以通过合成数据模拟真实的驾驶场景，为自动驾驶系统提供大量训练数据。

使用合成数据的好处显而易见。一方面，合成数据可以降低人工收集、处理和标注的成本，提高模型训练的效率。同时，合成数据一定程度上也突破了非平台企业的数据瓶颈。一直以来，X、Meta、Instagram等社交平台的用户数据都被微软、谷歌几家大头垄断。初创公司和小微企业难以获得训练自己的AI模型，而合成数据可以通过模拟物理世界的真实行为合成这些数据，从而降低了初创公司训练大语言模型的成本。

但与此同时，合成数据的缺点也明显。作为一种数据建模解决方案，AI合成数据最大的特征是“全面控制”，从代码到算法到微调，程序员可以模拟、调控数据生成的整个过程。这也就意味着，合成数据最大的问题是“有失偏颇”。

相比垂直大模型，通用大模型更加强调数据的异质化、差异性和多样性。但在现阶段，AI的智能程度还难以生成具备多样性、代表性、高质量的训练数据，毕竟机器生成的数据底层逻辑基于人类程序员的设计，难以反映出大千世界的多元文化。

具体来说，建立在合成数据上的大语言模型不可避免地带有内嵌的机器学习思维，而训练数据中合成数据的占比越大，自然语言理解能力或许就越低。这也是AI界固有存在的hallucination幻觉问题，即生成与人工指令prompt不符的胡言乱语。

更不用说，大模型还不可避免地带有人类社会固有的偏见（比如种族歧视、文化霸权等），比如今年二月份谷歌通用人工智能助手生成的黑人纳粹军队图像。如果基于已经存在的真实数据继续训练，生成的数据可能会进一步放大这种误差与偏见。

可以说，AI始于数据，也困于数据。在高质量数据受到版权压力，合成数据面临质量争议的情况下，大模型训练将面临更多的考验。

不过好在大模型企业仍然对合成数据的应用前景表示乐观。据了解，OpenAI和Anthropic的研究人员正试图通过创建所谓的更高质量的合成数据来避免这些问题。在最近的一次采访中，Anthropic的首席科学家JaredKaplan表示，某些类型的合成数据可能会有所帮助。

未来，大模型的数据困境将会从何突破，我们将会持续关注。

本文来自微信公众号：乌鸦智能说（ID：wuyazhinengshuo），作者：Nancy

声明：该内容为作者独立观点，不代表新零售资讯观点或立场，文章为网友投稿上传，版权归原作者所有，未经允许不得转载。新零售资讯站仅提供信息存储服务，如发现文章、图片等侵权行为，侵权责任由作者本人承担。如对本稿件有异议或投诉，请联系：wuchangxu@youzan.com

Like (0)

为了立“健康”人设，品牌们很焦虑

Previous 2024年4月10日 14:48

昨晚，谷歌向微软英特尔全面宣战

Next 2024年4月10日

水温80度：AI行业真假繁荣的临界点

我们从来没拥有过这么成功的AI主导的产品。

（这种分析统计并不那么准，但大致数量级是差不多的）

这两个产品碰巧可以用来比较有两个原因：

一个是它们在本质上是一种东西，只不过一个更通用，一个更垂直。

蓝海的海峡

未来成功的AI产品是什么样，大致形态已经比较清楚了，从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时“罢工”，全网打工人都慌了

美西时间午夜12点开始，陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载，忽然无法正常工作了。

因为发现AI用久了，导致现在“离了ChatGPT，大脑根本无法运转”。”

等等，又不是只有一个聊天机器人，难道地球离了ChatGPT就不转了。

大模型连崩原因猜想，谷歌躺赢流量激增6成

GPT归位，人们的工作终于又恢复了秩序。

未来科技 2024年6月5日
ChatGPT宕机8小时，谷歌Gemini搜索量激增60%

ChatGPT一天宕机两次

谷歌Gemini搜索量激增近60%

ChatGPT在全球拥有约1.8亿活跃用户，已成为部分人群工作流程的关键部分。

过去24小时内提交的关于OpenAI宕机的问题报告

图片来源：Downdetector

ChatGPT系统崩溃后，有网友在社交媒体X上发帖警告道：“ChatGPT最近发生的2.5小时全球中断，为我们所有依赖AI工具来支持业务的人敲响了警钟。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时大崩溃，AI集体罢工让全网都慌了

接着OpenAI也在官网更新了恢复服务公告，表示“我们经历了一次重大故障，影响了所有ChatGPT用户的所有计划。Generator调查显示，在ChatGPT首次故障后的四小时内，谷歌AI聊天机器人Gemini搜索量激增60%，达到327058次。

而且研究团队表示，“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关，显示出用户把Gemini视为ChatGPT的直接替代选项。

未来科技 2024年6月5日
深度对话苹果iPad团队：玻璃的传承与演变

iPad最为原始的外观专利

没错，这就是iPad最初被设想的样子：全面屏，圆角矩形，纤薄，就像一片掌心里的玻璃。

2010年发布的初代iPad

好在乔布斯的遗志，并未被iPad团队遗忘。

初代iPad宣传片画面

乔布斯赞同这一想法，于是快速将资源投入平板电脑项目，意欲打造一款与众不同的「上网本」，这就是iPad早年的产品定义。

iPad进化的底色

苹果发布会留下过很多「名场面」，初代iPad发布会的末尾就是一例。

未来科技 2024年6月5日
底层逻辑未通，影视业的AI革命正在褪色…

GPT、Sora均为革命性产品，引发了舆论风暴，但它在上个月发布的“多模态语音对谈”Sky语音，却由于声音太像电影明星斯嘉丽·约翰逊，被正主强烈警告，被迫下架。

华尔街日报也在唱衰，认为“AI工具创新步伐正在放缓，实用性有限，运行成本过高”：

首先，互联网上已经没有更多额外的数据供人工智能模型收集、训练。

03、

如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向，那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

但分歧点正在于此，电影公司希望通过使用AI技术来降低成本，但又不希望自己的内容被AI公司所窃取。

未来科技 2024年6月5日
KAN会引起大模型的范式转变吗？

“先变后加”代替“先加后变”的设计，使得KAN的每一个连接都相当于一个“小型网络”，能实现更强的表达能力。

KAN的主要贡献在于，在当前深度学习的背景下重新审视K氏表示定理，将上述创新网络泛化到任意宽度和深度，并以科学发现为目标进行了一系列实验，展示了其作为“AI+科学”基础模型的潜在作用。

KAN与MLP的对照表：

KAN使神经元之间的非线性转变更加细粒度和多样化。

未来科技 2024年6月5日
这个国家，也开始发芯片补贴了

//mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
[4]中国安防协会：欧盟批准430亿欧元芯片补贴计划：2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
[6]潮电穿戴：印度半导体投资大跃进，一锤砸下1090亿，政府补贴一半.2024.3.5https。

未来科技 2024年6月5日
大模型的电力经济学：中国AI需要多少电力？

这些报告研究对象（数字中心、智能数据中心、加密货币等）、研究市场（全球、中国与美国等）、研究周期（多数截至2030年）各不相同，但基本逻辑大同小异：先根据芯片等硬件的算力与功率，计算出数据中心的用电量，再根据算力增长的预期、芯片能效提升的预期，以及数据中心能效（PUE）提升的预期，来推测未来一段时间内智能数据中心的用电量增长情况。

未来科技 2024年6月5日
你正和20万人一起接受AI面试

原本客户还担心候选人能否接受AI面试这件事，但在2020年以后，候选人进行AI面试的过程已经是完全自动化的，包括面试过程中AI面试官回答候选人的问题，AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

以近屿智能与客户合作的校验周期至少3年来看，方小雷认为AI应用不太可能一下子爆发，包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

未来科技 2024年6月4日

OpenAI，困于数据短缺

相关推荐