号称超越GPT-4的大模型们,有多少靠的是“抄袭”

让模型走向同质化的“数据捷径”

“如果所有人都用一样的数据,你又怎么会比其他人好呢。

大家都知道,在大模型训练过程中,数据至关重要,并且在不同阶段的侧重点也有所差异。

在训练基座模型时,数据追求的是“量”,对算力要求也是极高,它决定了大模型对事物的基本“理解能力”。

如果按这个标准,现有的高质量文字数据和图像数据加起来体量根本不够,还差。

“大家相互薅羊毛,要用,但要小心用,一不小心就尴尬了。”一位国产大模型算法工程师在接受“甲子光年”采访时的吐槽,可以说是非常到位了。

它准确地阐述 AI 业内一个所有人“心照不宣”的公开秘密。

所有人都知道,大家却都尽量不“直视”它,那就是“偷数据”。

最近,“The Information”戳破了这层纱,道出大模型“套壳”中最糟糕的一种形态。而它背后的数据之战,也在今年获得了更多关注。

让模型走向同质化的“数据捷径”

“如果所有人都用一样的数据,你又怎么会比其他人好呢?”投资了 OpenAI 竞争对手 Anthropic 的门罗风投(Menlo Ventures)总经理 Matt Murphy 评论道。

大家都知道,在大模型训练过程中,数据至关重要,并且在不同阶段的侧重点也有所差异。

在训练基座模型时,数据追求的是“量”,对算力要求也是极高,它决定了大模型对事物的基本“理解能力”。

显然,不是所有初创企业都能给得起这个费用和时间。所以很多创业公司会跳过第一步,直接用 Meta 或 Mistral AI 开源的模型。

在这个基础上,创业公司需要针对自己的产品专注方向来对模型进行微调 —— 数据输入量相对少,但更具针对性和高质量,可以帮助模型成为特定领域的“专家”,做出产品差异性。

在这个阶段,开发者需要输入“问题”“回答”,试图为模型建立特定“联想”倾向。

这也是“偷数据”出现的环节。

因为 OpenAI、Anthropic 和 Google 这类大公司有资源去完善地完成两个阶段的训练,所以它们的模型所输出的结果质量也相对较高。

缺乏自有数据的初创公司,会购买 GPT-4 这类最新模型的付费账户,然后根据自己模型训练的需要去向 GPT-4 提问,再把回答和提问问题一并输入到模型训练。

譬如,主打编程细分领域模型的开发者可以直接输入一段代码,然后问 GPT-4 这段代码有什么问题,这样就生成了一个数据材料。

理论上,大公司们并不允许如此操作。

然而,有消息称 OpenAI 的 Sam Altman 在去年的一次会议上对创业者说,他们可以这样去做。这固然让当下的创业者安心了一些,但谁也说不准哪天 Altman 就决定要把这“特权”收回去。

Google 去年也有自己的“数据门”—— 不仅被指用百度的文心一言生成的中文数据来训练 Gemini,还有员工因 Google 用 ChatGPT 生成的数据训练自己的模型怒而辞职。

在行业整体“默许”下,这种情况变得越来越普遍。

帮助开发者研发对话式 AI 的 Unsloth AI 联合创始人 Daniel Han 表示,其客户中大概有一半的人都会用 GPT-4 或者 Anthropic 的 Claude 生成的数据来优化自己的模型。

原本用来分享有趣 ChatGPT 对话的工具 ShareGPT 成为了不少公司直接扒数据的地方,而类似 OpenPipe 这类工具则甚至可提升整个过程的自动化程度。

结果就是,现在市面上有越来越多创业公司提供大同小异的模型。这甚至衍生出如旧金山的 Martian 一般,专门为需要用 AI 服务的企业寻找“平替”方案的创业公司。

但投资人并不喜欢这种被欺骗的感觉。

正如《纽约时报》在最近文章的指出,目前 AI 行业缺乏标准和评测体系,人们很难统一标准地了解不同模型的表现差异或优势所在。

这让投资人更重视 AI 创业公司训练数据的来源。Radical Ventures 合伙人Rob Toews 强调说:

AI 模型训练数据的质量和来源已经成为其中一个最重要的热点关注之一。没人知道未来会怎样,但任何在数据来源上不谨慎或不具备策略性的 AI 创业公司都将落后。

数据大战中,“沉默”成为了共鸣

如果说“缺芯”是 2023 年 AI 行业的共识,那“缺数据”则是 2024 年的新主题。不仅创业公司缺,大公司更缺。

无论体量是大还是小,为了获得数据,这些公司都开始在灰色地带徘徊。

早在 2021 年,OpenAI 就面临了数据短缺问题。

虽然有员工提出行为不当性忧虑,最后 OpenAI 还是写了一个语音转文字工具 Whisper 来将超过 100 万小时的 YouTube 视频转为文字,用作 GPT-4 训练。

在这次行动中,OpenAI 总裁 Greg Brockman 还亲自出马帮忙收集视频。

知情人士透露,当 Google 发现 OpenAI 的所作所为后,它并没有揭发斥责这些侵害创作者版权的行为,因为,Google 也要做同样的事情。

Google 发言人 Matt Bryant 回应称,公司对 OpenAI 的行为并不知情,且严禁未经授权的数据抓取。

除了 YouTube 以外,三位知情人士表示,Google 也在盯着旗下线上协作文档工具 Google Doc 里的数据,但其隐私政策限制了 Google 使用这些数据的方式。

去年 7 月,Google 更新了隐私政策,明说可通过收集网络上的公开信息或来自其他公共来源的信息来训练 AI 模型。

对于在 AI 领域“起了大早却赶了个晚集”的 Meta 来说,虽然有法务曾警告过版权问题,最后也是决定跟随 OpenAI 的“行业先例”去使用有版权保护的书籍、文章等材料。

泄露出来的录音还表明,Meta 高管们一致同意,出事了可用 2015 年作家协会诉 Google 案失败的先例来辩护。

至于看起来应该是 Meta 最大优势的 Facebook 和 Instagram,事实上可用数据并不多,很多 Facebook 用户都删掉了自己早期发布的内容,而社交媒体通常也不是人们爱用来发布长篇内容的地方。

这些巨头们不愿言说的过往,构成了 AI 行业在训练数据上一致的闪烁其辞。

Adobe 算是其中鲜有积极讨论自家模型训练数据的大公司。

最近,它也“塌房”了。

Adobe 一直以来标榜公司是和创作者站在同一边,坚定只使用自家获得授权的图库来训练模型,不会像 Midjourney、Dall-E 那样擅自用有版权保护的图像素材训练。

直到有人发现,Adobe 的训练数据里其实包括 AI 生成图片,而且 Adobe 也是知情的。

虽然 Adobe 强调,模型的训练数据里只有 5% 左右的图像是 AI 生成的,但无论如何那些图像也是通过侵害创作者版权利益而造的文生图模型做出来的,因此并不完全“道德”。

这个月初,Adobe 高级副总裁 Ashley Still 还在一场公开活动上说:

“我们在推出 Firefly 时,有企业用户会来跟我们说:‘我们很爱你们在做的事,真的非常感激你没有盗取我们在网上的知识产权。’”

不知道“塌房”消息出来后,这位企业用户会作何感想。

“榨干”互联网后,下一步在哪?

我们曾以为互联网“浩瀚无垠”,直到现在大语言模型已经“吃不饱”。

两年前,研究机构 Epoch 的 Pablo Villalobos 指出,高质量数据很有可能会在 2024 年中期出现需求超过供给。他们现在乐观了一点,认为这个情况会在 2028 年才出现。

即便如此,OpenAI 现在可能也已经在行动了。

Epoch估算,GPT-4 所用训练数据约为 12 万亿 token,根据尺度定律(Scaling Law),要训练出被寄予厚望的 GPT-5 大概要 60-100 万亿 token。

如果按这个标准,现有的高质量文字数据和图像数据加起来体量根本不够,还差 10-20 万亿 token。

改变迫在眉睫。

Sam Altman 之前也暗示过,OpenAI 在找寻新的出路:

“我想,那个追求庞大模型的时代已经快要到头了。我们将用其他方法来让它们变得更好。”

与此同时,消息人士称 OpenAI 和 Google 都考虑做一套可以丈量特定数据对模型训练贡献程度的系统,这样好给提供这些数据的人计算要支付的费用,但目前还没有什么进展。

而在这些开拓数据和创新技术实现之前,有一件事 AI 创业公司现在就有能力但不一定愿意做的事 —— 提高透明度,打破沉默。

如果这也做不到,我们又怎能相信这些公司能做出对社会负责任的 AI 产品?

本文来自微信公众号:APPSO (ID:appsolution),作者:方嘉文

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
(0)
上一篇 2024年4月20日
下一篇 2024年4月20日

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日