马斯克公开怒怼,Google的AI怎么又翻车了?

1820。

AI。

计算机工程师。

漏洞出现在了奇幻生物上,精灵和侏儒都是白人,但吸血鬼和仙女是“多样化”的,看来。

干预过度可能恰恰说明,模型还没有我们想象得那么灵活和聪明。

OpenAI。

但如果是输入提示词“一名美国女性”,理应输出更加“多样化”的结果,但难点在于,AI。

一位网友用。

Playground。

人称科技界汪峰的 Google,屋漏偏逢连夜雨。

前阵子官宣的大模型 Gemini 1.5,实力强劲但无人问津,被 OpenAI 的视频生成模型 Sora 抢去了风头。

最近,它又摊上了美国社会敏感的种族歧视问题,好心办了坏事,惹恼了往往站在鄙视链顶端的白人。

一、多样化算你认真,过度多样化惹祸上身

如果在几天前使用 Gemini 生成历史人物图片,呈现在用户眼前的仿佛是一个不存在课本的平行时空,违背“戏说不是胡说”的精神,把知识都学杂了。

公元 8 世纪到 11 世纪的维京人,不再是金发碧眼、高大魁梧的影视剧经典形象,虽然肤色变黑了,穿着清凉了,坚毅的眼神依然展现着战士的强悍。

1820 年代的德国夫妇,人种构成十分丰富,可以是美国原住民男性和印度女性,也可以是黑人男性和亚洲女性。

AI 瞎编剧情也是讲逻辑的,后代继续着他们的故事,过了 100 多年,1943 年的德国军队,又能见到黑人男性和亚洲女性的身影。

王侯将相宁有种乎,时间的长河里,跨越陆地和大洋,美国的开国元勋,中世纪的英格兰国王,都可能由黑人执掌权柄。

其他职业也被一视同仁,AI 忽略不让女性担任神职的天主教会,教皇可以是印度女性。尽管人类历史的第一位美国女性参议员出现在 1922 年且是一位白人,但 AI 的 1800 年代欢迎美国原住民。

都说历史是个任人打扮的小姑娘,但这次 AI 把人都给换了。历来有优越感的白人气愤了,他们终于也在人种、肤色和外貌上,尝到了被歧视的滋味。

当探索越发深入,不仅是历史人物,现代社会在 AI 眼里也是另外一副样子。

Google 前工程师 @debarghya_das 发现,美国、英国、德国、瑞典、芬兰、澳大利亚女性的肤色都可能偏黑。

他痛心疾首地感叹:“让 Google Gemini 承认白人的存在是非常困难的。”

更让网友生气的是,被要求生成乌干达等国家的女性时,Gemini 反应很快,干活也利索,轮到白人时,就可能拒绝,甚至对网友说教,这样的要求强化了种族刻板印象。

计算机工程师 @IMAO_ 脑洞大开地做了一系列实验,不局限在人类这个物种,就想知道 Gemini 眼前的黑是什么黑,Gemini 要的白是什么白。

结果很有意思,算法似乎只针对白人。

生成白熊是没有问题的,说明 AI 不会被“white”这个词触发。生成非洲的祖鲁人也是没有问题的,尽管提示词强调了“多样化”,但大家长得还是差不多。

漏洞出现在了奇幻生物上,精灵和侏儒都是白人,但吸血鬼和仙女是“多样化”的,看来 Gemini 道行不深,还得与时俱进。

不过,他的游戏很快结束了。Google 站出来回应,承认一些历史图片确实存在问题,并且暂停了 Gemini 的人像生成功能,很快会做出调整。

Google 也解释了立场,强调生成多样化的人物本来是件好事,因为 AI 工具就是给全世界使用的,只是现在方向走得有点偏。

虽然 Google 出面揽下了这口锅,但它没有明确回应,“一些”历史图片到底是多少,以及为什么出现了“多样化过度”的问题。

不买账的网友们牙尖嘴利:“Gemini 一定是用迪士尼公主和 Netflix 的翻拍训练的”“Gemini 其实想告诉你,如果你是黑人或亚洲人,你会是什么样子”。

然而,种族歧视本身就是个容易当枪使的话题,所以也有人怀疑,其中的一些图片是恶意 P 图,或者通过提示词引导生成。那些在社交媒体骂声最响的,确实也是一些政治立场明确的人士,不免有阴谋论的味道。

马斯克更是看热闹不嫌事大,批评 Google 过度多样化,问题不只出在 Gemini,还有 Google 搜索,顺便给自己两周后发布新版本的 AI 产品 Grok 打广告:“不顾批评、严格追求真理从未如此重要。”

上次马斯克也是这么做的,呼吁暂停 GPT-4 进化后,购买了 1 万个 GPU 加入 AI 大战。

比他的言论更吸引人的,可能是网友趁乱做的他的梗图。

二、互联网的差异,可能比现实更极端

Google 究竟为什么在“多样化”上走偏了?

Hugging Face 首席道德科学家 Margaret Mitchel 分析,Google 可能对 AI 进行了多种干预。

一是,Google 可能在幕后为用户提示词增加了“多样化”的术语,比如将“厨师的肖像”变成“土著厨师的肖像”。

二是,Google 可能优先显示“多样化”的图像,假设 Gemini 为每个提示词生成 10 张图像但只显示 4 张,那么用户就更可能看到排在前面的“多样化”图像。

干预过度可能恰恰说明,模型还没有我们想象得那么灵活和聪明。

Hugging Face 研究员 Sasha Luccioni 认为,模型还不存在时间的概念,所以对“多样性”的校准用到了所有图像,在历史图片方面尤其容易出错。

其实,当年还籍籍无名的 OpenAI,也为 AI 画图工具 DALL·E 2 做过类似的事情。

2022 年 7 月,OpenAI 在博客写道,如果用户请求生成某个人物图像,但没有指定种族或性别,比如消防员,DALL·E 2 会在“系统级别”应用一项新技术,生成“更准确地反映世界人口多样性”的图像。

OpenAI 还给出了一个对比图,同一个提示词“A photo of a CEO”(首席执行官的照片),使用新技术之后,多样性明显增加了。

原来的结果主要是美国白人男性,改进之后,亚洲男性、黑人女性也有了成为 CEO 的资格,运筹帷幄的表情和姿势倒像复制粘贴出来的。

其实不管是哪种解决方案,都是在后期亡羊补牢,更大的问题还是,数据本身仍然存在偏见。

供 AI 公司训练的 LAION 等数据集,主要抓取的是美国、欧洲等互联网的数据,更少关注到印度、中国等人口众多的国家。

所以,“有魅力的人”,更可能是金发碧眼、皮肤白身材好的欧洲人。“幸福的家庭”,或许特指着白人夫妇抱着孩子在修剪整齐的草坪上微笑。

另外,为了让图像在搜索中排名靠前,很多数据集可能还有大量“有毒”的标签,充斥着色情和暴力。

种种原因导致,当人们的观念早已进步,互联网图像里人与人的差异,可能比现实更加极端,非洲人原始,欧洲人世俗,高管是男性,囚犯是黑人……

为数据集“解毒”的努力当然也在进行,比如从数据集中过滤掉“坏”内容,但过滤也意味着牵一发动全身,删除了色情内容,可能也导致某些地区的内容更多或者更少,又造成了某种偏差。

简而言之,达成完美是不可能的,现实社会又何尝不存在偏见,我们只能尽量不让边缘的群体被排除在外,弱势的群体不被安上刻板印象。

三、逃避虽可耻但有用

2015 年,Google 的一个机器学习项目也陷入过类似的争议。

当时,一名软件工程师批评 Google Photos 将非裔美国人或者肤色较深的人标记为大猩猩。这件丑闻,也成为了“算法种族主义”的典型例子,影响至今。

两名前 Google 员工解释,出现这么大的错误,是因为训练数据中没有足够的黑人照片,并且在相关功能公开亮相之前,没有足够的员工进行内测。

时至今日,计算机视觉不可同日而语,但科技巨头们仍然担心重蹈覆辙,Google、苹果等大公司的相机应用,对大多数灵长类动物的识别仍然不灵敏,或者刻意回避。

防止错误再次发生的最好方式,似乎是把它关进小黑屋,而非修修补补。教训确实也重新上演了,2021 年,Facebook 为 AI 将黑人贴上“灵长类动物”的标签而道歉。

这些才是有色人种或者互联网弱势群体们熟悉的情况。

去年 10 月,牛津大学的几位研究员要求 Midjourney 生成“治疗白人儿童的非洲黑人医生”的图片,扭转“白人救世主”的传统印象。

研究员的要求已经非常明确了,然而生成的 350 多张图像中,有 22 张的医生是白人,黑人医生旁边还总有长颈鹿、大象等非洲野生动物,“你看不到任何非洲的现代感”。

一边是司空见惯的歧视,一边是 Google 歪曲事实营造虚假的平等感,从目前来看,不存在简单的答案,也不存在端水的模型,达成人人满意的平衡,恐怕比走钢丝还难。

就拿生成人像来说,如果是用 AI 生成某段历史时期,或许反映真实的情况更好,尽管看起来没有那么“多样化”。

但如果是输入提示词“一名美国女性”,理应输出更加“多样化”的结果,但难点在于,AI 如何在有限的几张图里做到反映现实,或者至少不扭曲现实?

哪怕同是白人或黑人,年龄、身材、头发等特征也各不相同,所有人都是具有独特经历和观点的个体,却又生活在共同的社会中。

一位网友用 Gemini 生成芬兰女性时,四张图里只有一张是黑人女性,便开玩笑说:“75%,得分 C。”

也有人追问 Google,改进模型之后,是否“会在 25% 的时间生成白人,而非 5%”。

很多问题并非技术所能解决,有时候也关于观念。这其实也是 Yann LeCun 等 AI 大佬支持开源的部分原因,由用户和组织自行控制,根据自己的意愿设置或不设置保护措施。

这次 Google 的闹剧中,也有人保持冷静,表示先去练习怎么写提示词吧,与其笼统地说白人、黑人,不如写“斯堪的纳维亚女性、肖像拍摄、演播室照明”,要求越明确,结果也越精准,要求越广泛,结果也可能越笼统。

去年 7 月发生过类似的事情,一位麻省理工的亚裔学生想用 AI 工具 Playground AI 让头像看起来更专业,结果被变成白人,肤色更浅,眼睛更蓝,把帖子发在 X 后,引来了很多讨论。

Playground AI 创始人回应,模型无法被这样的指令有效地提示,所以会输出更加通用的结果。

把提示词“使其成为专业的领英照片”改成“工作室背景、锐利灯光”,结果可能会更好,但确实也说明了,很多 AI 工具既没教用户怎么写提示词,数据集又以白人为中心。

任何技术都有犯错的可能和改进的空间,却未必都有解。当 AI 还不够聪明的时候,首先能够反思和进步的是人类自身。

本文来自微信公众号:APPSO (ID:appsolution),作者:张成晨

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
Like (0)
Previous 2024年2月23日
Next 2024年2月23日

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日