合成数据：“假数据”，真风险

2024年1月2日 21:46 • 未来科技

Gartner报告预测，到2030年，合成数据在AI模型中的使用将完全超过真实数据

什么是合成数据

通常认为，合成数据是指基于计算机模拟技术或算法生成的虚拟数据，合成数据的使用往往是为了在训练中进行数据增强。

1.根据合成数据使用的目的，来确定应该如何保留真实数据样本的概率分布

虽然合成数据需要依赖于真实数据而产生，但是在真实数据本身存在偏见、错误观点的情况下，合成数据又是为了消弭这种偏见和错误而使用的时候，保留真实数据的概率分布会将真实数据中带有的偏见和错误带给合成数据，这不符合合成数据使用的目的。

已经有多项研究及报告表明，用于人工智能训练的各类数据正在被迅速地消耗并趋于枯竭，而“合成数据”在人工智能的训练中被越来越多使用，且将超过真实数据的占比。

Gartner报告预测，到2030年，合成数据在AI模型中的使用将完全超过真实数据

什么是合成数据

通常认为，合成数据是指基于计算机模拟技术或算法生成的虚拟数据，合成数据的使用往往是为了在训练中进行数据增强。由于其便捷且廉价，在实践中被大量采用，同时，由于其保真度及可控性等问题，也使得合成数据的使用存在大量的争议。

使用合成数据的优劣

合成数据是廉价的。合成数据最初就是为了增强、扩展数据，提高数据集整体质量而使用的。通过各类方法可以在短期内合成大量的数据，以用于人工智能的训练。并且，大多数合成数据在产生时就带有一部分标签，因而可以节省大量的人工标记的成本。

另外，在理论上，合成数据可以填补真实数据中存在的潜在偏差和不平衡性。收集到的真实数据由于收集渠道较少、缺少罕见案例数据等原因无法全面地反映现实世界。使用合成数据可以填补一些真实数据缺少的场景，使得数据集中的数据更加具有多样性。

此外，合成数据在隐私保护方面也表现出了它的优越性。理论上，合成数据可以模拟真实数据集中的特征分布，而不模拟其中的真实个人信息数据。从而实现对真实数据集的个人信息的去标识化。

虽然，合成数据有上述的优点，但是这些优点也伴随着缺点。

考虑到合成数据对真实数据的模拟，是存在一定偏差的。这种偏差在AI模型训练过程中，每次迭代都有可能会被保留下来，并且随着迭代次数的增加而进一步扩大，导致合成数据集和原始真实数据的差距越来越大。最后的结果就是导致AI模型的“崩溃”。

而在隐私保护方面，对真实数据中的个人信息数据过度隐藏，可能会影响AI模型最终的质量。个人信息数据中的特征是包含在了数据集整体的特征分布中的，进而个人信息数据特征是会影响模型最终的生成质量的。而由于生成式模型具有的黑盒部分，研发并不能很好地分离出哪些特征是模型预测生成所必须的。因而在合成数据使用的时候，需要更好地平衡真实性和隐私保护。

合成数据的常见方法

1.基于机械规则的合成

早期使用的扩展数据的方法一般是在原始数据上，基于机械规则产生新的数据。例如，对图片进行各个角度的翻转及不同程度的锐化，以增加某个标签下标签的多样性，提供模型在各种情况下的识别率。由于其便捷且廉价，目前在实际研发中依然被采用。

2.基于概率分布的合成

变分自编码器（VAE）是一种基于深度学习模型实现新样本生成的方法。简单来说，它先学习原始数据的概率分布，再根据概率分布生成看起来很像存在于原始数据集中合成数据。相比于机械规则，这种方法更加具有灵活性。

3.基于博弈提高的合成

生成式对抗网络（GAN）是通过博弈的方式提高合成数据质量的方法。它是由一个生成模型和一个判别模型所组成。生成模型做的是名词解释，需要生成符合定义（概率）的数据。判别模型则做的是选择题或者判断题，对生成模型的答案进行判分，根据判分的结果反馈给生成模型，或者是否最终输出该条合成数据。

GAN结构示意图

合成数据的规范使用

为了尽量避免使用合成数据所带来的风险，消弭合成数据带来的偏差和错误。可以考虑从使用目的、训练阶段、数据质量三个维度对合成数据的产生和使用进行规范。

1.根据合成数据使用的目的，来确定应该如何保留真实数据样本的概率分布

虽然合成数据需要依赖于真实数据而产生，但是在真实数据本身存在偏见、错误观点的情况下，合成数据又是为了消弭这种偏见和错误而使用的时候，保留真实数据的概率分布会将真实数据中带有的偏见和错误带给合成数据，这不符合合成数据使用的目的。当合成数据的使用是为了保护个人信息时，则应尽量保留其原始真实数据的概率分布。如果多个目的同时存在时，可以对不同的合成数据集进行标记，并做好数据集的隔离。

2.在合成数据集中适当补充少量的异常值

合成数据在生成时为了追求数据质量，往往会删除掉原始数据中的离群值和异常值。虽然这些离群值和异常值往往在数据标注时也会被删除，但是在现有技术下，它们是模型对现实世界的反馈建模所必不可少的信息。让模型知道什么是异常，它可能拒绝出现异常。异常值的存在可以提高人工智能模型的可靠性。

3.采用数据质量更高的合成数据和性能更高的生成方法

目前，大部分合成数据的产生还是要依赖于真实数据集的，同时，人工智能模型对真实数据的建模或多或少都是有损耗的。因此，合成数据的质量上限取决于原始真实数据的质量，真实数据集质量越高，合成数据集的质量就会越高。

4.限制使用合成数据的训练阶段

生成式模型的训练范式中，一般分为预训练和微调训练。预训练多采用的是无监督学习方法，目的是获得具有更高通用性的基座模型，这个阶段不建议使用合成数据，避免合成数据对模型底层层级造成影响，导致纠正的成本和难度加大。

5.限制使用合成数据的训练轮次

目前的研究表明，多轮使用合成数据训练可能会导致模型性能的退化，甚至崩溃。这种退化是在每轮训练中积累的，那么限制合成数据的训练轮次，仅训练少数几轮，防止合成数据中的“有害数据”进一步扩大污染到整个模型。

6.对合成数据进行一定程度的人工干预和标注

合成数据只是对数据集的增强和扩展，其并不能代替数据标注这一环节。值得一提的是，OpenAI采用的“从人类反馈中进行强化学习”（RLHF）的训练范式，通过人工对合成数据的评价排名的方式，并让模型学习这种排名的判别标准。在使用合成数据进行多轮训练中，模型不仅没有发生“退化”，还增强了对人类语言习惯的模仿能力和价值观对齐。

总之，合成数据的使用已经是不可阻挡的趋势，并且合成数据的使用利大于弊。因此，应该更为客观地看待合成数据，对它的生成和使用要“大胆假设、小心求证”。

作者简介

唐简捷：广东财经大学法律硕士，某知名法律科技公司+法律AI产品合规研究员，曾任国内头部运营商法务主管，善于在法律合规中应用AI技术、测试技术、加密技术，曾参与数字广东粤商通、中盾安信（公安一所）、中国电信、某省厅信息系统等多个数据安全与合规项目。

陈焕：北京市隆安(广州)律师事务所律师、隆安湾区人工智能法律研究中心主任、隆安广州数字经济部副部长、国家工业信息安全发展研究中心《生成式人工智能数据应用合规指南》团体标准起草人。

本文来自微信公众号：AI合规圈（ID：gh_344b08562741），作者：唐简捷、陈焕

声明：该内容为作者独立观点，不代表新零售资讯观点或立场，文章为网友投稿上传，版权归原作者所有，未经允许不得转载。新零售资讯站仅提供信息存储服务，如发现文章、图片等侵权行为，侵权责任由作者本人承担。如对本稿件有异议或投诉，请联系：wuchangxu@youzan.com

Like (0)

“2元面包店，月入14万”，低价时代的新商机？

Previous 2024年1月2日

AI绘画侵权国内第一案宣判，罚了500块

Next 2024年1月2日

水温80度：AI行业真假繁荣的临界点

我们从来没拥有过这么成功的AI主导的产品。

（这种分析统计并不那么准，但大致数量级是差不多的）

这两个产品碰巧可以用来比较有两个原因：

一个是它们在本质上是一种东西，只不过一个更通用，一个更垂直。

蓝海的海峡

未来成功的AI产品是什么样，大致形态已经比较清楚了，从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时“罢工”，全网打工人都慌了

美西时间午夜12点开始，陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载，忽然无法正常工作了。

因为发现AI用久了，导致现在“离了ChatGPT，大脑根本无法运转”。”

等等，又不是只有一个聊天机器人，难道地球离了ChatGPT就不转了。

大模型连崩原因猜想，谷歌躺赢流量激增6成

GPT归位，人们的工作终于又恢复了秩序。

未来科技 2024年6月5日
ChatGPT宕机8小时，谷歌Gemini搜索量激增60%

ChatGPT一天宕机两次

谷歌Gemini搜索量激增近60%

ChatGPT在全球拥有约1.8亿活跃用户，已成为部分人群工作流程的关键部分。

过去24小时内提交的关于OpenAI宕机的问题报告

图片来源：Downdetector

ChatGPT系统崩溃后，有网友在社交媒体X上发帖警告道：“ChatGPT最近发生的2.5小时全球中断，为我们所有依赖AI工具来支持业务的人敲响了警钟。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时大崩溃，AI集体罢工让全网都慌了

接着OpenAI也在官网更新了恢复服务公告，表示“我们经历了一次重大故障，影响了所有ChatGPT用户的所有计划。Generator调查显示，在ChatGPT首次故障后的四小时内，谷歌AI聊天机器人Gemini搜索量激增60%，达到327058次。

而且研究团队表示，“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关，显示出用户把Gemini视为ChatGPT的直接替代选项。

未来科技 2024年6月5日
深度对话苹果iPad团队：玻璃的传承与演变

iPad最为原始的外观专利

没错，这就是iPad最初被设想的样子：全面屏，圆角矩形，纤薄，就像一片掌心里的玻璃。

2010年发布的初代iPad

好在乔布斯的遗志，并未被iPad团队遗忘。

初代iPad宣传片画面

乔布斯赞同这一想法，于是快速将资源投入平板电脑项目，意欲打造一款与众不同的「上网本」，这就是iPad早年的产品定义。

iPad进化的底色

苹果发布会留下过很多「名场面」，初代iPad发布会的末尾就是一例。

未来科技 2024年6月5日
底层逻辑未通，影视业的AI革命正在褪色…

GPT、Sora均为革命性产品，引发了舆论风暴，但它在上个月发布的“多模态语音对谈”Sky语音，却由于声音太像电影明星斯嘉丽·约翰逊，被正主强烈警告，被迫下架。

华尔街日报也在唱衰，认为“AI工具创新步伐正在放缓，实用性有限，运行成本过高”：

首先，互联网上已经没有更多额外的数据供人工智能模型收集、训练。

03、

如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向，那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

但分歧点正在于此，电影公司希望通过使用AI技术来降低成本，但又不希望自己的内容被AI公司所窃取。

未来科技 2024年6月5日
KAN会引起大模型的范式转变吗？

“先变后加”代替“先加后变”的设计，使得KAN的每一个连接都相当于一个“小型网络”，能实现更强的表达能力。

KAN的主要贡献在于，在当前深度学习的背景下重新审视K氏表示定理，将上述创新网络泛化到任意宽度和深度，并以科学发现为目标进行了一系列实验，展示了其作为“AI+科学”基础模型的潜在作用。

KAN与MLP的对照表：

KAN使神经元之间的非线性转变更加细粒度和多样化。

未来科技 2024年6月5日
这个国家，也开始发芯片补贴了

//mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
[4]中国安防协会：欧盟批准430亿欧元芯片补贴计划：2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
[6]潮电穿戴：印度半导体投资大跃进，一锤砸下1090亿，政府补贴一半.2024.3.5https。

未来科技 2024年6月5日
大模型的电力经济学：中国AI需要多少电力？

这些报告研究对象（数字中心、智能数据中心、加密货币等）、研究市场（全球、中国与美国等）、研究周期（多数截至2030年）各不相同，但基本逻辑大同小异：先根据芯片等硬件的算力与功率，计算出数据中心的用电量，再根据算力增长的预期、芯片能效提升的预期，以及数据中心能效（PUE）提升的预期，来推测未来一段时间内智能数据中心的用电量增长情况。

未来科技 2024年6月5日
你正和20万人一起接受AI面试

原本客户还担心候选人能否接受AI面试这件事，但在2020年以后，候选人进行AI面试的过程已经是完全自动化的，包括面试过程中AI面试官回答候选人的问题，AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

以近屿智能与客户合作的校验周期至少3年来看，方小雷认为AI应用不太可能一下子爆发，包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

未来科技 2024年6月4日

合成数据：“假数据”，真风险

相关推荐