给AI当“奶妈”,是天涯们的生路吗?

Photobucket正在与AI公司谈交易的消息,是由路透社曝出的。

不断有已经弃用Photobucket的用户在社交媒体上吐槽,称自己频繁收到Photobucket“求复合”的邮件,已经不堪其扰。

为什么AI公司会找上“明日黄花”Photobucket。

如今PhotoBucket首席执行官接受采访,并坦诚平台与AI公司进行授权协议,但并不是每个AI公司都对其内容放心。

老牌中文社区天涯已经住进“ICU”整整一年,破产看来已经注定,但最近一家美国同行搭上AI快车的消息,又给天涯带来了一丝希望。

去年4月,因拖缴数据机房费用,天涯社区遭“断网”。

症结是缺钱。天涯社区称,危机来自于近几年资金流动性困难加剧,电信IDC欠费,导致天涯社区暂停访问。

再听到天涯的消息,是在今年2月底,全国企业破产重整案件信息网上公开一条“天涯社区网络科技股份有限公司被申请破产审查”的信息。

尽管天涯方面否认即将破产的传闻,但天涯重见天日的可能性,到底是更加渺茫了。

在美国,一家式微的老牌内容平台,却依靠AI的浪潮找到了副业,吃下了热钱——第三方图片托管平台Photobucket,一度拥有7000万用户,占据美国在线照片市场的近一半份额。如今,Photobucket辉煌不再,只有约200万人还在使用它。

正所谓“瘦死的骆驼比马大”,已经被大部分人遗忘的Photobucket有之前多年的积累,依然坐拥上百亿照片和视频。而这,正是患上“数据饥渴症”的AI公司最需要的。

在AI热潮下,不断有公司找上门来。以正在进行的谈判来粗略估计,Photobucket手里掌握的内容可能价值数十亿美元。

有钱但缺数据的AI公司,遇上没钱但积累了海量内容的老牌社区,不交易一下才奇怪。

Photobucket正在与AI公司谈交易的消息,是由路透社曝出的。

有意思的是,报道中有一句话在后续编辑中被删除:“公司预计,其第一季度营业利润将增长10倍,达到近49亿美元。”

49亿美元是什么概念?

Photobucket作为一家图片托管网站,刚开始是免费的。在千禧年前后,互联网用户激增,人们或为了记录生活,或为了分享,乐于将照片上传到一个专门的网站。而且,在Photobucket上传了图片后,人们还可以在其他网站如MySpace直接嵌入,省得反复上传。一些卖家也会在eBay或亚马逊使用Photobucket托管的图片。

用这种方式,巅峰时期的Photobucket一度占据了美国互联网流量的2%。

由免费转向付费,似乎是Photobucket的必经之路。不过,Photobucket有点太心急了。2017年时,Photobucket突然将第三方显示变为每年399美元的付费订阅服务。此举并没有提前的充分预警,很多用户发现自己在其他网站嵌入的Photobucket图片都无法展示,变成了“付费以解锁”的提示。

要知道,Photobucket当时已经有1亿注册用户,有约6000万第三方网站的图片在此次“升级”下无法正常显示。在争议之下,Photobucket次年将年订阅模式改为可月付的模式,并沿用至今。

Photobucket也就此走上下坡路。后续几年,Photpbucket又经历了服务中心断电导致服务中断、隐私泄露等“意外”,渐渐从备受欢迎的图片网站变成了互联网边角料产品。公司规模也从鼎盛时期的120名员工缩水到了40人。

目前Photobucket网站提供的付费计划中,最贵的每月收取8美元。以最新报道透露的200万用户在使用Photobucket来计算,哪怕他们全部月付8美元,每年也仅能贡献1.9亿美元。而且这对Photobucket来说只是收入,还没有剔除存储、维护、运营等各项成本。

虽然Photobucket在过去二十年损失了不少用户,但除非用户注销,否则它会一直保留着用户的图片。即便是在不再支持免费账户的情况下,Photobucket也明确通知用户:你的照片还在,只需要现在开始付费,就能重新看到它们。

不断有已经弃用Photobucket的用户在社交媒体上吐槽,称自己频繁收到Photobucket“求复合”的邮件,已经不堪其扰。

既然图片都在,海量的内容还存储在服务器上,为什么不用它们赚上一笔?将平台内容授权给AI公司,获得49亿美元,对Photobucket来说可以算是一笔巨款了。

为什么AI公司会找上“明日黄花”Photobucket?

答案很简单,太缺数据了。以OpenAI的GPT系列模型为例,GPT-3使用了3000亿的token,GPT-4使用了12万亿的token。而已经在路上的GPT-5所需的token量预估在60万亿到100万亿。

“规模即一切”成为AI的战斗口号。霍普金斯大学卢纶物理学家贾里德·卡普兰(Jared Kaplan)在2020年发表了一篇关于AI的开创性论文,其表明训练数据越多,大型语言模型的表现越好,就像学生通过阅读更多书籍来学习更多知识一样。

互联网上公开可用的数据在大模型面前并不是取之不尽的。据人工智能研究机构Epoch估计,2026年所有高质量可用数据就有可能被耗尽,互联网生产数据的速度有可能比不上不断膨胀的大模型的消耗速度。

“数据饥渴”的AI公司获取数据的路径,总结起来就是:

  • 免费的,直接用;

  • 自家的,直接用且不给别人用;

  • 可以付费的,付费;

  • 付费也买不到的,必要时想想办法弄到手。

近日,《纽约时报》报道OpenAI曾在训练GPT-4时利用了谷歌旗下YouTube的内容。直接取用肯定不行,谷歌不让啊。于是OpenAI计上心头,创建了一个名为Whisper的语音识别工具,将超过100万小时的YouTube视频转录,然后再喂给模型。

此前,尚未开放给大众的文本-视频工具Sora也引起了外界怀疑。在一次采访中,OpenAI的首席技术官米拉·穆拉蒂(Mira Murati)没有正面回应“是否使用YouTube、Instagram、Facebook等平台的内容训练Sora”这一问题,她听到该问题时复杂的表情甚至成为了互联网梗图。

YouTube首席执行官尼尔·莫汉(Neal Mohan)在4月5日对此表态,称目前没有证据表明OpenAI用了YouTube视频训练Sora,但如果OpenAI真这么做了,那“明显违反”了YouTube平台的使用条款

要是以为YouTube是在努力保护用户(或说创作者),可能有点天真。莫汉在采访中也提到,谷歌确实用了YouTube上的一些内容训练了旗下大模型Gemini。

另一边,巨头Meta的马克·扎克伯格(Mark Zuckerberg)也将平台数据视为自己的竞争优势。扎克伯格曾直言:“我们战术的下一个关键部分是从独特的数据中学习。”“在Facebook和Instagram上,有数千亿张公开分享的图片和数百亿段公开视频。”

在去年怒喷微软,威胁要起诉其使用X的数据训练AI的埃隆·马斯克(Elon Musk),也悄悄更新了X的隐私政策,表示会使用社交媒体数据来训练机器学习和AI模型。在网友的追问下,马斯克干脆承认:“只会用公开信息(训练),不会用私信和任何私人数据。”

有海量UGC(用户生成内容)且自己也做AI的公司,数据是不卖的,只给自己用。其他AI公司要么就铤而走险偷偷用,要么就要去找那些有内容但愿意出售的公司。

ShutterStock和Reddit都是活跃在数据交易场上的“大卖家”。

图片网站ShutterStock几乎和所有叫得上名字的AI大公司都合作了个遍,包括但不限于OpenAI、Meta、谷歌、亚马逊,达成使用其图片训练AI的协议。每笔交易的最初价格从2000万美元到5000万美元不等,而且后续还扩大了交易规模。

随着AI浪潮翻涌,“美国贴吧”Reddit意识到自己的数据对AI公司至关重要,且非常宝贵。去年开始,Reddit开始与一系列AIGC领军企业展开谈判,商议数据付费使用的问题。说白了就是不付费要授权,休想用这一头部“美国贴吧”的内容喂AI了。谈判陆续有了进展,如今年2月,Reddit就与谷歌达成协议,授权数据给其训练AI,合同价值约每年6000万美元。

在这样的态势下,Photobucket这样的老牌社区被盯上只是时间问题。

Photobucket的首席执行官泰德·伦纳德(Ted Leonard)表示,他正在和多家科技公司谈判,涉及130亿个内容(照片和视频)的授权。每张照片的授权价格在5美分到1美元,视频则为1美元以上。

一位买家告诉伦纳德,他们想要超过10亿个视频,比Photobucket拥有的还多。以现在的谈判来看,Photobucket坐拥价值数十亿美元的内容数据。

机智的Photoshop在去年10月更新了其用户条款,授予平台“不受限制的权利”,可以出售任何上传的内容,用于培训AI系统。

伦纳德甚至表示,有望用数据授权替代公司的广告销售业务。

繁忙的数据交易市场,也许给式微甚至已经死亡的UGC平台提供了一个“副业”。

天涯究竟积累了多少内容不可知,几个数据可以从侧面一窥其规模。巅峰时期,天涯的日访问量曾达到2000万。

在中文社区的黄金时代,流行着“全民话题,天涯制造”的说法。众多初代网红诞生于这里,如芙蓉姐姐、极品小月月、犀利哥等。众多畅销书孵化于此处,如《鬼吹灯》《明朝那些事儿》《东北往事:黑道风云二十年》《法医秦明》等等。

中文论坛对AI训练的用处也正在被关注。

一项研究显示,百度贴吧的“弱智吧”显现出不俗的数据训练效果。

这项研究由中科院深圳先进技术研究院、中科院自动化研究所、滑铁卢大学等众多高校、研究机构联合完成,提出了一个高质量的中文指导优化数据集。研究中用中文指导优化数据集训练了不同类型和大小的模型,探讨了各种数据源对模型性能的影响。在测试中,百度贴吧“弱智吧”的得分颇高。

“弱智吧”聚集了300个成员,并不是真的和智力障碍相关,而是“假装弱智”,发表一些烧脑言论。如“如果高中的入学率不高,为什么不直接录用大学生”,或“为什么我爸妈结婚的时候没有邀请我”。研究人员猜测,可能是“弱智吧”的问题增强了AI的逻辑推理能力。

这是全民创作和AI之间碰撞出的火花,社区内容有时能贡献意想不到的惊喜。

不过,横在社区内容和AI之间的,还有用户。

就像Photobucket忙不迭地更新用户条款,中文互联网的“内容确权”也一直是个问题。

一方面,中文互联网平台早已形成了将授权条款埋入用户条款里的习惯。目前所能查到的天涯2017年的《隐私和版权》协议中写明:“用户发表并将其上传到本网站的任何内容,本社区在全世界范围内不限形式和载体地享有永久的、不可撤销的、免费的、非独家的使用权和转授权的权利,包括但不限于修改、复制、发行、展览、改编、汇编、出版、翻译、信息网络传播、广播、表演和在创作及著作权法等法规确定的其他权利。”

天涯“断电”后,网络上售卖“天涯神帖合集”的生意走俏。天涯曾在重启公告中称,关注到天涯神贴在各大平台大受欢迎,“计划从现在开始发展一批高级会员,在回复访问后的天涯社区平台上开辟天涯神贴付费专区”。

在重启公告的最后,天涯表示,“无论是预购一个‘99元天涯神贴服务’,还是预购一个‘299元一对一数据下载服务’,都是对天涯重启非常重要的助力”。文末,天涯附上了购买二维码。

另一方面,平台是否就此有权将用户内容授权给其他公司以训练AI,还有待商榷。

用户对此颇为警惕。

在去年,小红书曾更新用户条款,在“用户内容及信息授权”中写着“您授予xxx公司免费的、不可撤销的、非排他的、无地域限制的许可使用”,并表示“上述许可包括使用、复制和展示用户内容中受保护的个人形象、肖像、姓名、商标、品牌、标识及其他营销推广素材、物料的权利和许可”,加之彼时恰有插画师质疑AI工具涉嫌抄袭,而引发了插画师对平台用自己上传的作品训练AI的担忧,不少插画师公开抵制,并宣布在该平台停更。

如今PhotoBucket首席执行官接受采访,并坦诚平台与AI公司进行授权协议,但并不是每个AI公司都对其内容放心。

Defened.ai的首席执行官布加拉(Daniela Braga)表示,她避免从Photobucket这样的平台公司获取内容,而更喜欢从创作这些照片的原作者那里获取授权:“我认为这非常危险。”“如果有一些AI生成的东西类似于某个从未点头许可的人的照片,那就有麻烦了。”

参考资料:

1.量子位:《弱智吧竟成最佳中文AI训练数据?中科院等:8项测试第一,远超知乎豆瓣小红书》

2.每日经济新闻:《天涯社区重启时间表公布 谁会花99元买“天涯神贴服务”?》

3.科技狐:《成立 23 年,承载无数人记忆的社区关闭了……》

4.钛媒体:《钛媒体独家|天涯社区App“复活”,上线应用商店但无法正常使用,公司正筹资1000万元》

本文来自微信公众号:字母榜(ID:wujicaijing),作者:毕安娣,编辑:王靖

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
Like (0)
Previous 2024年4月12日 14:51
Next 2024年4月12日

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日