千万人围观的一张巴以冲突图片，是AI生成的？

2023年10月15日 23:00 • 未来科技

于是，有人把照片放到了AI图片检测器中，来检测这些照片是否为AI生成。

Farid还通过他自己的其他AI图像检测器识别了这幅图，另外四种AI图像检测工具也都认为图像不是AI生成的。

上图8所示是将几何分析应用于由AI生成的包含了看上去相当准确的反射的图像结果。

Hive预计，它能准确检测到大约95%的AI生成的图像，尤其是在网上疯传的共享图像，往往比其他图像识别效果更好。

AI图片检测器又被冲了！

最近，外网爆出大量中东地区冲突的照片，向世人展示了生命在这种极端条件下是何等的脆弱和无助。

其中，一张“烧焦婴儿”的照片，由于太过于残忍，让人难以置信。

于是，有人把照片放到了AI图片检测器中，来检测这些照片是否为AI生成。

果然，这张照片被AI检测器——Optic，认定为“AI生成”。

而在4chan上，甚至还出现了“原图”，原本尸体的位置其实是一只狗狗。

于是网友愤怒地去发布者推文下方留言，攻击他利用AI生成的照片来散播虚假的末日恐慌。

这条认为照片是由AI生成的推文，2天不到的时间已经有2100万的阅读量。

但是很快网友们发现，他们把照片放到了同样的AI检测器上，检测结果几乎是随机的，既有AI，也有人类。

有人发现，只要把同一张图片裁剪一下，或者背景色变成黑白，这个检测器就会认为图片是由人类拍摄的。

甚至有时候检测器“抛硬币”的时候，硬币还会立起来……

那到底这张图是不是由AI生成的呢？

最后，AI检测器官方也针对这个事件发推，认为他们的没有办法确定图片是否由AI生成，希望大家理性讨论。

一、AI图片检测器，到底有多不靠谱？

UC Berkeley教授、世界顶尖的数字图像处理专家之一Hany Farid表示，这张图像没有任何迹象表明它是由AI生成的。

“AI图像生成器最大的问题之一是高度结构化的形状和直线，”Farid说。“如果你看到桌腿和螺丝，一切看起来都很完美，那么图片就几乎不可能是由AI生成的。”

比如这张著名的“海绵宝宝制造了9/1”的图片，窗外的双子塔线条都不直，飞机上的仪表盘都相互扭曲到一起了，这看起来就是“A里A气的”。

“我们在那张照片中能够看到物体的结构很准确、阴影也很准确、没有伪影——这让我相信这张照片应该完全是真实的。”法里德说。

Farid还通过他自己的其他AI图像检测器识别了这幅图，另外四种AI图像检测工具也都认为图像不是AI生成的。

Farid说，“AI检测器是一个工具，但它只是工具包的一部分。用户需要对整个图像进行进行一系列的测试，不可能只按一个按钮就得到答案。”

而AI检测工具Optic确实也没有给出自己的检测技术的具体细节。

Optic网站也声明，“AI检测器可能会产生不准确的结果”。

二、AI图像检测技术

Farid教授在去年曾经撰写过一篇论文，介绍了如何判断AI生图工具图像的一致性。

通过判断图像上的一致性，可以帮助判断出图像是否由AI生成。

论文链接：https://arxiv.org/abs/2206.14617?ref=404media.co

教授首先概述三种相关的基于物理的分析方式，每种分析都利用了图像形成过程固有的相同的基础透视几何原理。

消失点

1. 平行后退线汇聚于一个消失点。

瓷砖之间的线图1(a)是平行的。成像时，这些线全部汇聚在一个消失点。如果场景中的平行线在深度上远离镜头，那么就会存在消失点，尽管它可能落在图像之外。

如果场景中的平行线在深度上不后退，也就是说，如果它们完全平行于镜头传感器（在任何距离），则平行线将被成像为平行线，出于实际目的，可以考虑消失点处于无穷远。这种几何学源于透视投影的基础知识。

在透视投影下，场景中的点 (X， Y， Z) 被成像到点 (f X/Z， f Y /Z)，其中f是镜头焦距。

由于图像中点的位置与距离Z成反比，因此投影点会作为距离的函数进行压缩，从而导致图像中的线会聚。

2. 平行平面上的平行线会聚到同一个消失点。

远处的盒子在图 1(b) 与地板上的瓷砖对齐，使得盒子的边缘与瓷砖之间的线平行。因为平行平面上的平行线共享一个消失点，所以盒子侧面和瓷砖地板的消失点是相同的。

3. 平面上所有直线的消失点都位于消失线上。

许多组平行线，每组平行线会聚到不同的消失点，如图1(c) 所示。如果平行线组跨越场景中的同一平面，则它们的消失点将位于消失线上。消失线的方向由镜头相对于平行线所跨越的平面的旋转来确定。

阴影

有点令人惊讶的是，消失点背后的相同几何形状也适用于投射阴影。

上图显示的是连接盒子上的点及其在投射阴影上的对应点的三条光线。扩展图像边界后发现，这三条光线相交于一个点，该点对应的是照亮场景的光源的投影。

无论光源在附近（台灯）还是在远处（太阳），这种与阴影、物体和光相关的几何约束都成立，并且无论阴影投射到的表面的位置和方向如何，该几何约束都成立。

当然，该分析假设场景由单个主光源照明，从每个对象仅存在单个投射阴影可以明显看出这一点。

在上面的示例中，照亮场景的光源位于镜头前面，因此光源的投影位于图像平面的上半部分。

然而，如果光线位于镜头后面，则光源的投影将位于图像平面的下半部分。由于这种反转，对象约束的阴影也必须反转。

因此，图像的投射阴影分析必须考虑三种可能性：

光线位于镜头前面，光源的投影位于图像平面的上半部分，约束锚定在投射阴影上并包围对象；

光线在镜头后面，光源的投影在图像平面的下半部分，约束锚定在物体上并包围投射的阴影；

光线位于镜头中心的正上方或正下方，光源的投影位于无穷远，约束将在无穷远相交。如果这些情况中的任何一种导致所有约束的共同交集，则投射阴影在物理上是合理的。

反射

下图2所示的场景是三个盒子反射在平面镜中。

这个图的下半部分显示了真实盒子和虚拟盒子之间的几何关系。

橙色线代表镜子，位于两组盒子之间的中点。黄线连接真实和虚拟盒子上的对应点。这些线彼此平行并垂直于镜子。

现在考虑一下这些平行线叠加在场景上时如何出现。从镜子平面观察时平行的线不再平行。相反，由于透视投影，这些平行线会聚到一个点，就像世界中的平行线会聚到一个消失点一样。

由于连接场景中对应点及其反射的线始终是平行的，因此这些线必须在图像中具有共同的交点才能在物理上合理。

实例分析

上图3显示了AI合成图像的三个代表性示例，并对地板和柜台顶部的几何透视一致性进行了分析。

每张图像（在几个像素内）准确地捕捉了瓷砖地板的透视几何形状，作为一致的消失点（以蓝色呈现）的证据。然而，平行台面（以青色呈现）的消失点在几何上与台面的消失点不一致。

相应的对齐图块。即使台面与瓷砖不平行，青色消失点也应位于由瓷砖地板消失点定义的消失线（以红色呈现）上。请注意，对于图 3 右上角的图像，瓷砖地板上的水平线几乎是平行的，因此相应的消失点位于无穷远，因此不会相交。

虽然这些图像中消失点局部是一致的，但并不是全局一致的。在 25 张合成的厨房图像中，每张都发现了相同的模式。

上图是用提示词生成的方块图片，在阴影处就明显地出现了不一致性。

上图8所示是将几何分析应用于由AI生成的包含了看上去相当准确的反射的图像结果。

尽管这些反射在视觉上是合理的，但在几何上并不一致。

与前几节中的投射阴影和几何结构不同，DALL·E-2 很难合成合理的反射，大概是因为此类反射在其训练图像数据集中不太常见。

基于这些对于AI生成图片局限性的了解，通过对于图片一致性的检测，能非常有助于判断图片是否由AI合成。

三、图像识别难，AI打败AI

AI图像生成器，正不断进化。

上半年，Midjourney爆火，能够生成足够逼真的图片，却愚弄了很多人。

86岁教皇头顶白色小瓜帽、一身喇叭口的白色羽绒服，金属制的十字架项链外露，外加一本正经的表情。

当时，这张照片一经发布，在社交媒体上骗过了所有人，被许多网友疯狂转发，甚至有人直呼教皇太潮了。

在大家都信以为真时，突然有人点出这是AI生成的，许多人瞬间傻眼了。

这仅是其中的一个例子，还有马斯克新女友GM的首席执行官Barra等各种虚假流传的图片，已经达到完全以假乱真的程度。

这一事件，直接引发了马斯克、苹果联合创始人Stephen Wozniak等科技领导人呼吁暂停AI的研发。

虽然AI生成有趣、便利，但它给整个行业带来了风险。

一不小心，就会被别有用心的人用其传播虚假信息、侵犯知识产权，或生成“果照”等等。

接下来几个月，Midjourney将会发布最新的V6版本，目前V5版本已经在图片生成的真实度上做得非常完善。

而其他AI图像生成器也在快速迭代。前段时间，OpenAI刚刚发布了DALL·E 3，与此同时微软必应图像生成也用上了DALL·E 3。

当然了，研究人员也在努力构建可以辨别图像的工具，关键是如何追赶上AI图像生成器不断换代的步伐？

四、AI检测工具竞争赛

现在，已经有十几家公司提供工具来识别图片是否是由AI生成的，它们的名字包括Sensity AI（深度伪造检测）、Fictitious.AI（抄袭检测）、Originality.AI等等。

人工智能信任与安全公司Optic推出了一个“AI or Not”的网站。

在这个网站上，你可以上传照片或粘贴图片网址，网站会自动判断，照片是否是由AI生成的。上传的图片数量没有限制。

另外，你也可以在Optic的推特账户@optic_xyz上发布或转发一张图片，或者加上#aiornot，便会得到一条回复，包括图片的置信度百分比。

这家公司的首席执行官Andrey Doronichev表示，Optic的AI工具可以检查每张图像中人眼不可见的伪影，例如图像中亮度和颜色的变化。

让人惊喜的是，该工具的准确率为95%。

但是随着Midjourney等AI图像生成工具的升级迭代，“AI or Not”的准确率下降到了88.9%。

比如，教皇这张图片，AI认为87%的概率是由人类做的。

教皇穿着白色羽绒服的形象在Optic更新前被愚弄

其实有网友表示，仔细去看这张图，就会发现有人工智能生成的明显迹象，包括几个明显模糊的细节区域：

看似不完整的手正试图抓住一个不太像咖啡杯的东西，旁边还有污迹；

教皇佩戴的十字架也不是直角形状，上面还刻着一个像是用黏土雕刻而且坐着的耶稣；

眼镜与脸部的阴影不一致。

这几点都表明这是由人工智能生成的。它仅了解现实的表面，但不了解支配物理对象是如何相互作用的基本规则。

除了Optic家的工具，为内容添加标签的人工智能公司Hive，近来也更新了自家的免费AI生成的内容检测器。

这个AI工具在DALL-E、Stable Diffusion、Midjourney的数百万张图像上进行了训练。

Hive预计，它能准确检测到大约95%的AI生成的图像，尤其是在网上疯传的共享图像，往往比其他图像识别效果更好。

CEO Kevin Guo称，当人们分享人工智能图像时，他们会选择最逼真的假图，所以人们很难辨别什么是真的。

左图是AI生成的图像，可以从两个手指和奇怪的击掌辨别，而在普通iStock照片中真实的样子如右图。

与Optic一样，Hive在检测必应Image Creator的图像时，也失败了。

不过，这些检测工具并非止步不前，随着AI图像整成模型的迭代，它们也会更新升级。

其实，AI图像辨别不能仅仅依靠行业中的检测工具完成，更应该在模型训练时设好护栏。

许多人工智能图像生成器，也被限定了一些内容能否被生成的“黑名单”。

比如，必应Image Creator会标记和阻止要求其创建知名公众人物图像的用户提示。

Midjourney有“human moderators”，并正在推出一种用算法来调节用户请求的方法。

还有DALL·E 3技术报告中介绍道，当你让ChatGPT生成一些“果图”、或者涉及黑白人等图片时，输入的prompt直接被改写。

五、给AI加水印，大厂在做了

此外，数字水印也是目前增强生成式AI安全的重要手段之一，微软、谷歌等科技巨头已经在产品中使用。

微软曾在9月Surface大会上，介绍了DALL·E 3加持下的必应生成图像的能力。

与此同时，为了确保图像不被滥用，微软团队使用加密方法为每一张图像生成不可见的水印，包括创建时间和日期。

任何人可以点开每张图片，轻易识别出是否是AI生成的。

Meta还开源了Stable Signature，可将数字水印直接嵌入到AI自动生成的图片中。

论文地址：https://arxiv.org/pdf/2303.15435.pdf

值得一提的是，Stable Signature生成的数字水印不受裁剪、压缩、改变颜色等破坏性操作影响，能追溯到图片的初始来源。

它可应用于扩散、GAN等模型，比如Stable Diffusion。

还有谷歌在Google Cloud Next上，也发布了为AI生成的图像打上水印并进行检测和识别的SynthID。

SynthID使用两个深度学习模型，分别用于水印和识别。它们可以在一组不同的图像上一起训练。

组合模型针对一系列目标进行了优化，包括正确识别带水印的内容，并通过直观地将水印与原始内容对齐来提高水印的隐蔽性。

SynthID生成的数字水印是直接嵌入到图像的像素中的，人眼无法察觉。但SynthID可以检测并识别它们。

SynthID可以帮助评估图像由Imagen创建的可能性

加州大学河滨分校电气和计算机工程教授Amit Roy-Chowdhury表示，仔细观察图像背景，我们可以用自己的眼睛更好地检测假图像。

不过，在AI模型加速迭代的当下，想要有“火眼金睛”太难了。

参考资料：https://www.404media.co/ai-images-detectors-are-being-used-to-discredit-the-real-horrors-of-war/

本文来自微信公众号：新智元（ID：AI_era），编辑：桃子、润

声明：该内容为作者独立观点，不代表新零售资讯观点或立场，文章为网友投稿上传，版权归原作者所有，未经允许不得转载。新零售资讯站仅提供信息存储服务，如发现文章、图片等侵权行为，侵权责任由作者本人承担。如对本稿件有异议或投诉，请联系：wuchangxu@youzan.com

Like (0)

OpenAI，陷入生存烦恼

Previous 2023年10月15日

以色列，为何能成为“芯片王国”

Next 2023年10月16日

水温80度：AI行业真假繁荣的临界点

我们从来没拥有过这么成功的AI主导的产品。

（这种分析统计并不那么准，但大致数量级是差不多的）

这两个产品碰巧可以用来比较有两个原因：

一个是它们在本质上是一种东西，只不过一个更通用，一个更垂直。

蓝海的海峡

未来成功的AI产品是什么样，大致形态已经比较清楚了，从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时“罢工”，全网打工人都慌了

美西时间午夜12点开始，陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载，忽然无法正常工作了。

因为发现AI用久了，导致现在“离了ChatGPT，大脑根本无法运转”。”

等等，又不是只有一个聊天机器人，难道地球离了ChatGPT就不转了。

大模型连崩原因猜想，谷歌躺赢流量激增6成

GPT归位，人们的工作终于又恢复了秩序。

未来科技 2024年6月5日
ChatGPT宕机8小时，谷歌Gemini搜索量激增60%

ChatGPT一天宕机两次

谷歌Gemini搜索量激增近60%

ChatGPT在全球拥有约1.8亿活跃用户，已成为部分人群工作流程的关键部分。

过去24小时内提交的关于OpenAI宕机的问题报告

图片来源：Downdetector

ChatGPT系统崩溃后，有网友在社交媒体X上发帖警告道：“ChatGPT最近发生的2.5小时全球中断，为我们所有依赖AI工具来支持业务的人敲响了警钟。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时大崩溃，AI集体罢工让全网都慌了

接着OpenAI也在官网更新了恢复服务公告，表示“我们经历了一次重大故障，影响了所有ChatGPT用户的所有计划。Generator调查显示，在ChatGPT首次故障后的四小时内，谷歌AI聊天机器人Gemini搜索量激增60%，达到327058次。

而且研究团队表示，“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关，显示出用户把Gemini视为ChatGPT的直接替代选项。

未来科技 2024年6月5日
深度对话苹果iPad团队：玻璃的传承与演变

iPad最为原始的外观专利

没错，这就是iPad最初被设想的样子：全面屏，圆角矩形，纤薄，就像一片掌心里的玻璃。

2010年发布的初代iPad

好在乔布斯的遗志，并未被iPad团队遗忘。

初代iPad宣传片画面

乔布斯赞同这一想法，于是快速将资源投入平板电脑项目，意欲打造一款与众不同的「上网本」，这就是iPad早年的产品定义。

iPad进化的底色

苹果发布会留下过很多「名场面」，初代iPad发布会的末尾就是一例。

未来科技 2024年6月5日
底层逻辑未通，影视业的AI革命正在褪色…

GPT、Sora均为革命性产品，引发了舆论风暴，但它在上个月发布的“多模态语音对谈”Sky语音，却由于声音太像电影明星斯嘉丽·约翰逊，被正主强烈警告，被迫下架。

华尔街日报也在唱衰，认为“AI工具创新步伐正在放缓，实用性有限，运行成本过高”：

首先，互联网上已经没有更多额外的数据供人工智能模型收集、训练。

03、

如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向，那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

但分歧点正在于此，电影公司希望通过使用AI技术来降低成本，但又不希望自己的内容被AI公司所窃取。

未来科技 2024年6月5日
KAN会引起大模型的范式转变吗？

“先变后加”代替“先加后变”的设计，使得KAN的每一个连接都相当于一个“小型网络”，能实现更强的表达能力。

KAN的主要贡献在于，在当前深度学习的背景下重新审视K氏表示定理，将上述创新网络泛化到任意宽度和深度，并以科学发现为目标进行了一系列实验，展示了其作为“AI+科学”基础模型的潜在作用。

KAN与MLP的对照表：

KAN使神经元之间的非线性转变更加细粒度和多样化。

未来科技 2024年6月5日
这个国家，也开始发芯片补贴了

//mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
[4]中国安防协会：欧盟批准430亿欧元芯片补贴计划：2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
[6]潮电穿戴：印度半导体投资大跃进，一锤砸下1090亿，政府补贴一半.2024.3.5https。

未来科技 2024年6月5日
大模型的电力经济学：中国AI需要多少电力？

这些报告研究对象（数字中心、智能数据中心、加密货币等）、研究市场（全球、中国与美国等）、研究周期（多数截至2030年）各不相同，但基本逻辑大同小异：先根据芯片等硬件的算力与功率，计算出数据中心的用电量，再根据算力增长的预期、芯片能效提升的预期，以及数据中心能效（PUE）提升的预期，来推测未来一段时间内智能数据中心的用电量增长情况。

未来科技 2024年6月5日
你正和20万人一起接受AI面试

原本客户还担心候选人能否接受AI面试这件事，但在2020年以后，候选人进行AI面试的过程已经是完全自动化的，包括面试过程中AI面试官回答候选人的问题，AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

以近屿智能与客户合作的校验周期至少3年来看，方小雷认为AI应用不太可能一下子爆发，包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

未来科技 2024年6月4日

千万人围观的一张巴以冲突图片，是AI生成的？

相关推荐