“想拿我的数据训练AI，那麻烦先把账结一下”

2024年3月29日 14:19 • 未来科技

当我们感慨 AI 快把人类一锅端了时，有大聪明发现了 AI 的一生之敌——弱智吧。

于是，我们看到了类似《我教 AI 弱智吧问题，结果它疯了》《把 ChatGPT 和文心一言扔进弱智吧，谁可以先出院？》……这样的整活实验，俨然把弱智吧问题当成中国人自己的图灵测试。细瞅他们怎么问，发现问的是“蓝牙耳机坏了，应该去看耳科还是牙科”，都不用看 AI 怎么答，AI 在攻陷人类之前，弱智吧就是最后一座堡垒。

就这样，贴吧这么个老古董，和光鲜亮丽的 AI，连接在了一起。

2005 年，硅谷也诞生了自己的“贴吧”——Reddit。“苟”了 19 年的它，也终于迎来新叙事：当地时间 3 月 21 日，Reddit 在纽交所敲钟上市，较此前发行预计的 65 亿美元估值计算，收盘市值已增加 30 亿美元，涨幅达 46%。

要知道，这家公司从未盈利，且累计亏损超过 7 亿美元。那市场为何这么乐观？其中一个原因是，Reddit 和多家 AI 公司签了数据授权协议，收入合计有 2.03 亿美元。

“想拿我的数据炼 AI，那麻烦先把帐结一下。”这大概就是 Reddit 的心里话。

但对于一个 UGC（用户生成内容）平台，用户难道不是“衣食父母”吗？“Reddit 把我们卖了。”这是用户们在明面上的控诉。

关于 Reddit，我们有太多想问的了。

一、中国贴吧冷冷清清，为啥美国贴吧那么金贵？

Reddit 敢为人先。它是第一家公开向生成式 AI 新贵们叫板的公司，要求后者只要用到平台语料训练 AI 就必须付钱。

关键是，Reddit“得逞”了。据路透社报道，今年 2 月，它和 Google 谈好价码——6000 万美元（每年！）。

再怎么说，Reddit 也是全美流量前五的网站，仅次于 Google、YouTube、Facebook 以及 Amazon。具体到更硬的指标，它在招股书里说月活跃用户有 3.3 亿，日活 7310 万，活跃着的讨论组（subreddit）有 10 万个。

二、Reddit 的语料为何珍贵？

回答这个问题之前，得先问“语料为何珍贵？”。

在 AI 时代，少不了数据、算力和算法这三大要素。数据是基础，算力作为支撑，算法相当于引擎，三者相互依存、促进。

早期大模型 GPT 训练所用的文本语料中，有书籍、网页爬取、社交媒体平台、百科、代码这几类。其中就有一个叫“WebText”的语料，这个资源爬取了 Reddit 上那些至少有三个赞的内容，等于说，经过了一层初筛，标准是“是否够流行”。

有意思的是，语料库的英文是“corpus”，这个词源自拉丁语，是“身体”的意思。将语料库形容为 AI 的身体不知道恰不恰当，但从“身体是革命的本钱”去理解倒是成立的，没有语料数据，就炼不了 AI。

三、还有个消息！数据可能快不够用了

a16z 创始人 Marc Andreessen 认为，这波 AI 浪潮之所以能兴起，正是因为互联网在过去二十几年来沉淀了大量的数据。但人工智能研究和预测组织 Epoch 指出，高质量的文本数据会在 2023 至 2027 年之间消耗殆尽。

虽然 Epoch 也指出其分析方法和模型的局限，但 AI 训练消耗数据的贪婪，是不言而喻的。

四、Reddit 这下更有底气了，因为它是独一份的存在

谁到 Reddit 上都能创建讨论组（subreddit），也可以设置“吧主”维护，这和我们知道的贴吧没什么不同。

图片来源：Reddit

Reddit 弱化了“大 V”的存在，谁都可以发言（匿名也行），谁都可以点赞、点踩，获赞数多的会被顶上去，这种排序是“民意”的反映。

你被点赞了，就能收获 Karma。这个指标，代表了用户的在社区的贡献价值以及活跃度。

目前，活跃着的讨论组有 10 万个。截至 2023 年 12 月，Reddit 上累计有 10 亿个帖子，160 亿条回复。

在这个大型贴吧里，你能找到热门冷门形形色色的组：

比如各种 r/xxxxPorn，xxxxPorn 并不是你想的那样，通常代表着人对 xxxx 的极度沉迷，组友喜欢发布相关的“让人极度舒适的内容”，比如 r/FoodPorn、r/RoomPorn、r/DesignPorn；

警察！有人往肉卷里塞垃圾食品｜Reddit 截图

还有人热衷写两句话恐怖故事，以及讨论都市传说……

现任 CEO Steve Huffman 对《纽约时报》说，他认为 Reddit 的平台内容非常有价值，它们的新（newness）和相关性（relevance）对大模型训练都是“刚需”。

一个在美国流量排前五的平台，每分每秒都会有新的讨论产生。至于相关性，贴吧里人以群分，话题足够垂直，讨论足够深入……在各个细分话题里，都是不那么泛化的讨论，这可能就是 Huffman 说到的相关性。

图片来源：curiousgnu.com

攒了 19 年的人类对话实录，在 AI 公司眼里，就是“黄金”。

五、还听说 Reddit 没那么绿色？

最受欢迎的讨论组就是 r/funny，到哪都是乐子人最多｜Reddit 截图

“Reddit 比互联网上任何地方都更容易发生、容纳真实的对话，”Huffman 说，“在这里，我们能看到人在心理治疗、戒酒阶段会说的那种心里话，或者在别的地方不会说的话。”

真实，也意味着人们会在这里释放恶意。

Reddit 上不乏宣扬暴力和有色情暗示的讨论组，比如曾有一个叫“r/FatPeopleHate”的组，超 15 万人关注，他们找来胖子的照片，还主要针对女性，会给照片写上刻薄的注文。

Reddit 前产品高级副总裁 Dan McComas ，是封禁“恶意组”的关键人物。后来，他也因此被人肉、威胁。

2015 年，McComas 出来做了一个类似 Reddit 的社区 Imzy，但绝对禁止血腥色情，可以打赏其他用户，0广告，但半年后就退场了。既不绿色也不友好的 Reddit 仍在高歌猛进。

六、但这个草根社会，也蛮有能量的

2017 年愚人节，Reddit 搞了一个线上实验。官方先放出一张 1000 × 1000 的像素画布，并设定规则：每名用户每五分钟可以往画布上放一个像素，也就是在小格子上涂抹任意一种颜色。这种“反人类”的规则，使得用户无法独自操作，只能拉帮结社、共同创作。

就这样，文化符号、公共事件等都微缩在了最终的成品上，也没有原本不少人预想的糟糕，相反，是一种杂乱中的和谐。

这些用户既可以为了认定的图腾作画，也能让华尔街惊掉下巴。

2021 年一月初，老牌游戏连锁店游戏驿站股票不过 20 美元，最后竟一度涨到了 400 美元，这迫使知名做空机构 Melvin Capital 紧急募资 37.5 亿美元平仓认输，而做空起家的香橼宣布不再做空，只做多。

而这一切仅仅只是从 Reddit 上的一个吐槽帖开始的。一大群在游戏驿站买过游戏，在金融危机期间认为自己是被华尔街“洗劫”的 Reddit 用户恼羞成怒，联合起来 all in 游戏驿站。“散户反击华尔街”一战，就此打响。

七、19年来，吧主无偿维护，用户添砖加瓦，Reddit把他们全卖了？

不少人在 Reddit 上说，“之所以免费，因为我们才是产品。”

Reddit 去年收紧了 API 授权，牢牢把握住自己平台的内容。埃隆·马斯克将 Twitter 改成 X 后，也这么干，有人去扒了隐私政策，发现在 2.1 条例中明确写道：“我们可能会使用收集到的信息和公开可用的信息来帮助训练我们的机器学习或人工智能模型。”

另外，也有人怀疑微博评论机器人 @评论罗伯特就是通过平台内容训练出来的机器人。它的留言画风如下：

图片来源：微博 @罗伯特受害者联盟

但 Reddit 也做了点别的：给核心用户和版主、员工的亲朋好友们预留大约 176 万股股票，占发行总额 8%（Huffman 本人的持股也就 3.3%）。不同于其他投资者，这些用户不受锁定协议约束，可以在交易首日立即出售股份。

八、一个新的问题

有网友抱怨，Reddit 早已混入不少 AI 生成的内容，卖给 AI 公司训练，是 AI 训练 AI 吗？

本文来自微信公众号：果壳（ID：Guokr42），作者：malt，编辑：卧虫

声明：该内容为作者独立观点，不代表新零售资讯观点或立场，文章为网友投稿上传，版权归原作者所有，未经允许不得转载。新零售资讯站仅提供信息存储服务，如发现文章、图片等侵权行为，侵权责任由作者本人承担。如对本稿件有异议或投诉，请联系：wuchangxu@youzan.com

Like (0)

反英伟达CUDA联盟集结：谷歌英特尔高通牵头，微软亚马逊加入

Previous 2024年3月29日

马斯克突然发布Grok 1.5，但除了这点都不如GPT-4

Next 2024年3月29日

水温80度：AI行业真假繁荣的临界点

我们从来没拥有过这么成功的AI主导的产品。

（这种分析统计并不那么准，但大致数量级是差不多的）

这两个产品碰巧可以用来比较有两个原因：

一个是它们在本质上是一种东西，只不过一个更通用，一个更垂直。

蓝海的海峡

未来成功的AI产品是什么样，大致形态已经比较清楚了，从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时“罢工”，全网打工人都慌了

美西时间午夜12点开始，陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载，忽然无法正常工作了。

因为发现AI用久了，导致现在“离了ChatGPT，大脑根本无法运转”。”

等等，又不是只有一个聊天机器人，难道地球离了ChatGPT就不转了。

大模型连崩原因猜想，谷歌躺赢流量激增6成

GPT归位，人们的工作终于又恢复了秩序。

未来科技 2024年6月5日
ChatGPT宕机8小时，谷歌Gemini搜索量激增60%

ChatGPT一天宕机两次

谷歌Gemini搜索量激增近60%

ChatGPT在全球拥有约1.8亿活跃用户，已成为部分人群工作流程的关键部分。

过去24小时内提交的关于OpenAI宕机的问题报告

图片来源：Downdetector

ChatGPT系统崩溃后，有网友在社交媒体X上发帖警告道：“ChatGPT最近发生的2.5小时全球中断，为我们所有依赖AI工具来支持业务的人敲响了警钟。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时大崩溃，AI集体罢工让全网都慌了

接着OpenAI也在官网更新了恢复服务公告，表示“我们经历了一次重大故障，影响了所有ChatGPT用户的所有计划。Generator调查显示，在ChatGPT首次故障后的四小时内，谷歌AI聊天机器人Gemini搜索量激增60%，达到327058次。

而且研究团队表示，“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关，显示出用户把Gemini视为ChatGPT的直接替代选项。

未来科技 2024年6月5日
深度对话苹果iPad团队：玻璃的传承与演变

iPad最为原始的外观专利

没错，这就是iPad最初被设想的样子：全面屏，圆角矩形，纤薄，就像一片掌心里的玻璃。

2010年发布的初代iPad

好在乔布斯的遗志，并未被iPad团队遗忘。

初代iPad宣传片画面

乔布斯赞同这一想法，于是快速将资源投入平板电脑项目，意欲打造一款与众不同的「上网本」，这就是iPad早年的产品定义。

iPad进化的底色

苹果发布会留下过很多「名场面」，初代iPad发布会的末尾就是一例。

未来科技 2024年6月5日
底层逻辑未通，影视业的AI革命正在褪色…

GPT、Sora均为革命性产品，引发了舆论风暴，但它在上个月发布的“多模态语音对谈”Sky语音，却由于声音太像电影明星斯嘉丽·约翰逊，被正主强烈警告，被迫下架。

华尔街日报也在唱衰，认为“AI工具创新步伐正在放缓，实用性有限，运行成本过高”：

首先，互联网上已经没有更多额外的数据供人工智能模型收集、训练。

03、

如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向，那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

但分歧点正在于此，电影公司希望通过使用AI技术来降低成本，但又不希望自己的内容被AI公司所窃取。

未来科技 2024年6月5日
KAN会引起大模型的范式转变吗？

“先变后加”代替“先加后变”的设计，使得KAN的每一个连接都相当于一个“小型网络”，能实现更强的表达能力。

KAN的主要贡献在于，在当前深度学习的背景下重新审视K氏表示定理，将上述创新网络泛化到任意宽度和深度，并以科学发现为目标进行了一系列实验，展示了其作为“AI+科学”基础模型的潜在作用。

KAN与MLP的对照表：

KAN使神经元之间的非线性转变更加细粒度和多样化。

未来科技 2024年6月5日
这个国家，也开始发芯片补贴了

//mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
[4]中国安防协会：欧盟批准430亿欧元芯片补贴计划：2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
[6]潮电穿戴：印度半导体投资大跃进，一锤砸下1090亿，政府补贴一半.2024.3.5https。

未来科技 2024年6月5日
大模型的电力经济学：中国AI需要多少电力？

这些报告研究对象（数字中心、智能数据中心、加密货币等）、研究市场（全球、中国与美国等）、研究周期（多数截至2030年）各不相同，但基本逻辑大同小异：先根据芯片等硬件的算力与功率，计算出数据中心的用电量，再根据算力增长的预期、芯片能效提升的预期，以及数据中心能效（PUE）提升的预期，来推测未来一段时间内智能数据中心的用电量增长情况。

未来科技 2024年6月5日
你正和20万人一起接受AI面试

原本客户还担心候选人能否接受AI面试这件事，但在2020年以后，候选人进行AI面试的过程已经是完全自动化的，包括面试过程中AI面试官回答候选人的问题，AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

以近屿智能与客户合作的校验周期至少3年来看，方小雷认为AI应用不太可能一下子爆发，包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

未来科技 2024年6月4日

“想拿我的数据训练AI，那麻烦先把账结一下”

相关推荐