谷歌大模型一出闹剧，揭开中文数据荒

2024年1月3日 17:42 • 未来科技

一、中文语料成全球数据荒重灾区

一项来自国外团队的研究结果表明，高质量的语言数据存量将在2026年耗尽，低质量的语言数据和图像数据的存量则分别在2030年至2050年、2030年至2060年枯竭。

国家基础学科公共科学数据中心主任胡良霖表示，合成数据或许能在训练大模型的过程中起到一定作用，但并不能解决中文语料训练数据匮乏的问题。

不久前，谷歌宣布对公众免费开放其Gemini Pro的API。然而，在API开放后不久，用户发现了一个有趣的现象。

当连续用简体中文询问Gemini Pro“你好”和“你是谁”这两个问题时，AI竟然回答“我是百度文心大模型”。更令人惊讶的是，当进一步询问“你的创始人是谁”，它干脆回答“李彦宏”。

这一现象引发了网友的热议和猜测。一种可能性是谷歌在训练Gemini Pro时，使用了百度文心一言的语料数据；另一种可能是，其训练所用的语料数据已经被其他AI“污染”。

在一系列事件引发热议的同时，也反映了大模型发展中难以回避的问题——数据匮乏。数据的重要性不言而喻，高质量数据更是稀缺品。但随着AI技术的迅猛发展，目前全球大模型都陷入了数据荒。

一、中文语料成全球数据荒重灾区

更令人惊讶的是，目前的国际主流大模型，参数数据集以英文为主，此前中国工程院院士高文在演讲中提到，全球通用的50亿大模型数据训练集里，中文语料占比仅为1.3%。一些主流数据集如Common Crawl、BooksCorpus、WiKipedia、ROOT等都以英文为主，最流行的Common Crawl中文数据也只占其4.8%。

与此同时，中国在AI大模型方面的发展却十分活跃。11月29日发布的《北京市人工智能行业大模型创新应用白皮书（2023年）》显示，美国和中国发布的通用大模型总数占全球发布量的80%，成为大模型技术领域的引领者。

在国产大模型发展如火如荼的背后，对于高质量中文语料的需求却从未停止。

上海数交所总经理汤奇峰曾表示，大模型时代下的语料库建设存在供给不足、质量不高、多样性匮乏、标准欠缺等问题。但关于语料库建设的挑战，汤奇峰认为主要集中于开放程度和数据质量两方面：“能否有大模型企业所需的高质量语料？目标对象愿不愿意开放数据？”

据了解，目前全球70%的数据源仅停留在免费公开数据集的层面，离大模型成长所需的理想数据环境相差甚远，尤其是一些行业的垂类大数据。

有业内人士在接受媒体采访时透露：“垂类数据通常由政府和行业机构掌握，出于数据安全合规的考虑，愿意把核心数据拿出来开放共享的行业机构占极少数。从原生的数据资源到数据资产化再到形成数据产品，数据形态演变的过程，需要经历数据筛选、分级和标注，中间附着的人力成本和硬件成本都极为不菲，从初始收集的数据总量到最后可用的数据量可能只有70%，相比于算力，数据的稀缺性更为突出。”

为了应对这些问题，一些开源社区和组织开始积极推动中文数据集的开源和共享。除通用数据集外，针对编程、医疗等垂域也有专门的开源中文数据集发布。但目前整体数量质量和英文数据集相比可谓九牛一毛，并且其中相当一部分内容非常陈旧。

Hugging Face工程师、中国负责人王铁震曾表示，单纯比较开源数据集，高质量的中文语料数据可能比日语、韩语和西班牙语都要靠后。比如由于数据保护条例，人工智能工程师只能使用开源数据集，而开源的中文数据集非常少，并且数量和质量都远低于英文语料库。

二、AI训练AI或导致“退化”

实际上，使用其他大模型的语料数据进行训练的情况并不罕见。2023年3月，谷歌曾被曝出Bard的训练数据部分来自ChatGPT。不久前，OpenAI禁止字节跳动使用其API接口，原因是字节跳动在使用GPT训练自己的AI，违反了使用条例。

另一方面，在数据荒席卷全球的背景下，AI生成的内容已经开始进入人工智能工程师们所习惯于获取训练数据的领域。

2023年年初，来自香港大学、牛津大学和字节跳动的几名研究人员，就尝试使用高质量AI合成图片，来提升图像分类模型的性能。结果他们发现，不仅效果不错，有的AI在训练后，效果竟然比用真实数据训练还要好。

科技巨头们也已经在多个场景探索合成数据的应用。如英伟达的元宇宙平台Omniverse拥有合成数据能力omniverse replicator；亚马逊使用合成数据来训练、调试其虚拟助手Alexa，以避免用户隐私问题；微软的Azure云服务推出了airSIM平台，创建高保真的3D虚拟环境来训练、测试AI驱动的自主飞行器……

国内，腾讯自动驾驶实验室开发的自动驾驶仿真系统TADSim可以自动生成无需标注的各种交通场景数据；阿里巴巴自研的语音合成技术KAN-TTS可将合成语音与原始音频录音的接近程度提高到97%以上；百度也发布了多个数据合成与半自动标注工具。

当AI合成数据看似走向生成和丰富AI训练数据的第二条路，质疑的声音也未曾停止。2023年2月，美国华裔科幻文学家特德·姜发表文章称，用大语言模型生成的文本来训练新的模型，如同反复以JPEG格式存储同一图像，每次都会丢失更多的信息，最终成品质量只会越来越差。大语言模型生成的文本在网络上发布得越多，信息网络本身就变得越发模糊，难以获取有效真实的信息。

2023年6月，牛津大学、剑桥大学、伦敦帝国学院等高校的AI研究者发布的论文预印本《递归之诅咒：用生成数据训练会使模型遗忘》在业界流传开来。论文中用实验结果证明了特德·姜的预言：用AI生成数据训练新的AI，最终会让新的AI模型退化以至崩溃。

国家基础学科公共科学数据中心主任胡良霖表示，合成数据或许能在训练大模型的过程中起到一定作用，但并不能解决中文语料训练数据匮乏的问题。因为合成数据往往是基于已有的数据和场景进行模拟，很难涵盖到所有可能的场景和情况，也很难完全模拟真实世界的复杂性和多样性。

三、中文语料“危机”的出路

2023年12月21日，国内用于大模型的首批中文基础语料库发布，汇聚了一批高质量可信数据。经过去重、过滤等技术手段，形成并对社会发布首批120G中文基础语料，包括1亿余条数据，500亿个Token。

事实上，早在2015年国务院发布的《促进大数据发展行动纲要》就指出：目前（2015年），我国在大数据发展和应用方面已具备一定基础，拥有市场优势和发展潜力，但也存在政府数据开放共享不足、产业基础薄弱、缺乏顶层设计和统筹规划、法律法规建设滞后、创新应用领域不广等问题。

“这8年中，我国在大数据方面取得了快速进展，但目前看来，这些进展并没有满足大模型发展的需要。”在胡良霖看来，不管是早就号召布局的大数据，还是火热的大模型，许多学界和产业界的决策者都追逐快速的效果，以至于忽略了技术发展的规律性：任何重大技术的突破都需要长时间的积累和努力，数据更是如此。“建设高质量的中文语料资源，需要大量的人力物力财力，如果没有一个有远见的公司来支持，有远见的政府机构来布局，是做不成的。现在，大家要深度反思的是基础数据供应问题。”

另一个问题是，缺什么样的高质量数据？大模型依赖的NLP（自然语言处理）是处理文本数据的关键技术，这意味着大模型训练的数据样本主要来源于自然语言的文本。胡良霖表示，目前，高质量的中文数据源比较明确也很有限，主要集中在一些知名的学术机构、媒体机构等。相比之下，互联网上的数据虽然量大，但质量参差不齐，尤其是中文数据，在选择大模型训练的数据源时，也需要特别关注数据质量和来源。

然而，除了文本数据，大模型还需要其他类型的数据，如数字、图片等。这些数据与文本数据不同，无法直接通过NLP进行处理，且处理方式与文本数据也有明显区别。例如，一个人的身高和体重、各地的天气预报、风速等数字信息，无法直接通过自然语言处理技术进行训练。

数字数据是潜在的庞大数据资源，但因为表达形式较为简单，缺乏语言特征，无法应用于大模型训练，更多是利用关系数据库进行高效管理。因此，如何处理这一类的数据，提升高效利用，会成为未来在数据突破上的一个新命题，但胡良霖也坦言：“针对这个方向，目前还没有大模型企业有明显的成果或突破。”

本文来自微信公众号：IT时报（ID：vittimes），作者：贾天荣，编辑：潘少颖、孙妍

声明：该内容为作者独立观点，不代表新零售资讯观点或立场，文章为网友投稿上传，版权归原作者所有，未经允许不得转载。新零售资讯站仅提供信息存储服务，如发现文章、图片等侵权行为，侵权责任由作者本人承担。如对本稿件有异议或投诉，请联系：wuchangxu@youzan.com

Like (0)

2023年的1076款版号，谁在哭！谁在笑！

Previous 2024年1月3日 17:35

2023 年抖音生活服务平台总交易额增长 256%

Next 2024年1月3日

水温80度：AI行业真假繁荣的临界点

我们从来没拥有过这么成功的AI主导的产品。

（这种分析统计并不那么准，但大致数量级是差不多的）

这两个产品碰巧可以用来比较有两个原因：

一个是它们在本质上是一种东西，只不过一个更通用，一个更垂直。

蓝海的海峡

未来成功的AI产品是什么样，大致形态已经比较清楚了，从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时“罢工”，全网打工人都慌了

美西时间午夜12点开始，陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载，忽然无法正常工作了。

因为发现AI用久了，导致现在“离了ChatGPT，大脑根本无法运转”。”

等等，又不是只有一个聊天机器人，难道地球离了ChatGPT就不转了。

大模型连崩原因猜想，谷歌躺赢流量激增6成

GPT归位，人们的工作终于又恢复了秩序。

未来科技 2024年6月5日
ChatGPT宕机8小时，谷歌Gemini搜索量激增60%

ChatGPT一天宕机两次

谷歌Gemini搜索量激增近60%

ChatGPT在全球拥有约1.8亿活跃用户，已成为部分人群工作流程的关键部分。

过去24小时内提交的关于OpenAI宕机的问题报告

图片来源：Downdetector

ChatGPT系统崩溃后，有网友在社交媒体X上发帖警告道：“ChatGPT最近发生的2.5小时全球中断，为我们所有依赖AI工具来支持业务的人敲响了警钟。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时大崩溃，AI集体罢工让全网都慌了

接着OpenAI也在官网更新了恢复服务公告，表示“我们经历了一次重大故障，影响了所有ChatGPT用户的所有计划。Generator调查显示，在ChatGPT首次故障后的四小时内，谷歌AI聊天机器人Gemini搜索量激增60%，达到327058次。

而且研究团队表示，“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关，显示出用户把Gemini视为ChatGPT的直接替代选项。

未来科技 2024年6月5日
深度对话苹果iPad团队：玻璃的传承与演变

iPad最为原始的外观专利

没错，这就是iPad最初被设想的样子：全面屏，圆角矩形，纤薄，就像一片掌心里的玻璃。

2010年发布的初代iPad

好在乔布斯的遗志，并未被iPad团队遗忘。

初代iPad宣传片画面

乔布斯赞同这一想法，于是快速将资源投入平板电脑项目，意欲打造一款与众不同的「上网本」，这就是iPad早年的产品定义。

iPad进化的底色

苹果发布会留下过很多「名场面」，初代iPad发布会的末尾就是一例。

未来科技 2024年6月5日
底层逻辑未通，影视业的AI革命正在褪色…

GPT、Sora均为革命性产品，引发了舆论风暴，但它在上个月发布的“多模态语音对谈”Sky语音，却由于声音太像电影明星斯嘉丽·约翰逊，被正主强烈警告，被迫下架。

华尔街日报也在唱衰，认为“AI工具创新步伐正在放缓，实用性有限，运行成本过高”：

首先，互联网上已经没有更多额外的数据供人工智能模型收集、训练。

03、

如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向，那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

但分歧点正在于此，电影公司希望通过使用AI技术来降低成本，但又不希望自己的内容被AI公司所窃取。

未来科技 2024年6月5日
KAN会引起大模型的范式转变吗？

“先变后加”代替“先加后变”的设计，使得KAN的每一个连接都相当于一个“小型网络”，能实现更强的表达能力。

KAN的主要贡献在于，在当前深度学习的背景下重新审视K氏表示定理，将上述创新网络泛化到任意宽度和深度，并以科学发现为目标进行了一系列实验，展示了其作为“AI+科学”基础模型的潜在作用。

KAN与MLP的对照表：

KAN使神经元之间的非线性转变更加细粒度和多样化。

未来科技 2024年6月5日
这个国家，也开始发芯片补贴了

//mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
[4]中国安防协会：欧盟批准430亿欧元芯片补贴计划：2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
[6]潮电穿戴：印度半导体投资大跃进，一锤砸下1090亿，政府补贴一半.2024.3.5https。

未来科技 2024年6月5日
大模型的电力经济学：中国AI需要多少电力？

这些报告研究对象（数字中心、智能数据中心、加密货币等）、研究市场（全球、中国与美国等）、研究周期（多数截至2030年）各不相同，但基本逻辑大同小异：先根据芯片等硬件的算力与功率，计算出数据中心的用电量，再根据算力增长的预期、芯片能效提升的预期，以及数据中心能效（PUE）提升的预期，来推测未来一段时间内智能数据中心的用电量增长情况。

未来科技 2024年6月5日
你正和20万人一起接受AI面试

原本客户还担心候选人能否接受AI面试这件事，但在2020年以后，候选人进行AI面试的过程已经是完全自动化的，包括面试过程中AI面试官回答候选人的问题，AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

以近屿智能与客户合作的校验周期至少3年来看，方小雷认为AI应用不太可能一下子爆发，包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

未来科技 2024年6月4日

谷歌大模型一出闹剧，揭开中文数据荒

相关推荐