体验DALL·E 3+ChatGPT王炸组合后,我感受到了甲方的快乐

至于第三个场景,则是日常生活常见的企业。

第二幅图对弈的紧张感倒是拉满了,但是前一幅图该有的毛病,它也没落下,至于第三第四幅图的问题也大差不差。

满分十分,你觉得可以给这三幅图打几分。

但“一只橘色的猫坐在椅子上”的描述比较简单,缺乏具体的细节,也没有提到这只猫是什么品种,身体特征怎么样,周围环境怎么样。

为了避免陷入版权纠纷,OpenAI。

“漂浮在太空中的宇航员躺在云朵上,云朵变成了一把舒适的扶手椅,扶手上有一个云朵形的遥控器。宇航员对着镜头挥手,在他的脚下,地球变成了一个令人着迷的灯光漩涡。”

也许你曾在梦境中见过这般天方夜谭,要想在现实中实现,估计得是 N 个世纪后的事情,但在那一天到来之前,你可以先用 DALL·E 3“梦想成真”。

DALL·E 3 并不是什么陌生的工具,但还是要给不了解的朋友解释一下,DALL·E 3 是一款 AI 图像生成器,你可以将之理解为 OpenAI 版 的 Midjourney。

9 月份的时候,OpenAI 宣布 DALL・E 3 将集成到 ChatGPT,堪称各自领域里几乎最强的模型合并。更重要的是,DALL・E 3 原生构建在 ChatGPT 之上,无需详细的提示词,你就可以直接在 ChatGPT 里文生图。

昨日凌晨,OpenAI 官方宣布,DALL·E 3 现已向所有 ChatGPT Plus 和 Enterprise 用户开放。给个小提示,如果你不想花钱,也可以使用微软的 New Bing 来畅玩 DALL·E 3。

只有你想不到,没有 DALL·E 3 画不了

那么 DALL·E 3 的生图效果如何呢?OpenAI 在其官方博客中列举了三个标志性例子,分别涉及科学项目、网站设计、企业标志设计等诸多场景。

例如,倘若你需要在课堂报告中演示卷云时,你可以要求 DALL·E 3 生成足够精细的卷云图片。

又或者你是网站设计师,还在为网页设计挠头抓腮时,那么你也可以使用 DALL·E 3 来刺激更多的灵感。

至于第三个场景,则是日常生活常见的企业 logo 设计,只需要输入 Prompt(提示词),“兔子+咖啡”的设计方案就能快速地呈现在你面前。

从官方给出的最终成图来看,成图的细节保留相对完整,四张设计方案的风格能够看出比较明显的差异化,整体的水平还算中规中矩。

当然,这只是官网给出的成图,并不排除经过了“美化”,所以带着这个疑问,我们也重新按照官方给的提示词,输入进去看看实际效果?

最终的实际效果跟官图相差不大,但也有一个小“Bug”,比如第二个例子,输入提示词后最终输出的却是文字。

这一度让我以为我没有调整到 DALL·E 3 界面,当然,问题也不大,只不过是多了个再次确认的步骤。

琳琅满目的“Gallery 画廊”里展示了各式各样的生成图片,漫画,像素画、油画,什么样的风格都应有尽有。

OpenAI 似乎想通过“Gallery 画廊”告诉用户,只有你想不到,没有 DALL·E 3“画”不了。

画是能画出来,但画得好不好才是关键,例如,我尝试让他画一幅李白穿白衣,杜甫穿黑衣的对弈图。

“Stop generating”持续了一会,给出了啼笑皆非的四幅图,第一幅图,不光衣服的颜色出错,更有趣的是,李白和杜甫变成了国际友人,下的棋还是国际象棋,显然,DALL·E 3 在理解中文的语境上还有待加强。

第二幅图对弈的紧张感倒是拉满了,但是前一幅图该有的毛病,它也没落下,至于第三第四幅图的问题也大差不差。

对于 AI 图像生成器来说,调教后的结果才是其潜力所在。譬如,当我尝试让第一幅图更换棋类、衣服和头饰后,最终生成的效果长这样!

乍一看,似乎没什么大问题,但仔细看看棋盘后,你会发现:李白和杜甫把围棋下成了“拼图”?

对弈期间,有点摩擦很正常嘛,于是我让 DALL·E 3 按照下方要求生成了连环图。

李白对弈时,恼羞成怒,掀了棋盘。

杜甫生气了,打了李白一拳。

最后李白和杜甫握手言谈,继续下棋。

满分十分,你觉得可以给这三幅图打几分?

从全量推送到现在,在神通广大的网友开发下, DALL·E 3 也被玩出了各种新花样。如果你是高达玩家,你可以让 DALL·E 3 化身设计师,给你设计出最酷炫的高达图纸,清单式地展示各类零部件,然后再利用 3D 打印出来。

只不过需要注意的是,高达图纸详尽的细节看似唬人,实则也会偶尔多出几个零部件。

又或者扎克伯格与马斯克的“笼中决斗”迟迟并未成行,加之 C 口 与 Lightning 口的转换也引起了许多争议,那为什么不让 Lightning 口与 C 口来一场精彩的“笼中决斗”呢?

无需提示词的背后,是 AI 在给你打工

除了 DALL·E 3 的全量推送,OpenAI 还通过一篇论文向外界揭秘 DALL·E 3 背后具体的技术细节。

为了方便你理解,我们对这篇论文抽丝剥茧后,将用一个简单的例子来解释整个技术流程。

首先 OpenAI 收集了大量的图像和对应的文字描述作为训练数据,比如图片是一只猫,那么图片对应的描述是一只橘色的猫坐在椅子上。

但“一只橘色的猫坐在椅子上”的描述比较简单,缺乏具体的细节,也没有提到这只猫是什么品种,身体特征怎么样,周围环境怎么样?

为了获得更丰富的描述,OpenAI 训练了一个图像 AI 描述生成模型,也就是说,给这个模型同样的照片,它可以输出更复杂的描述:

例如,“一只橘色的猫坐在椅子上”就会变成“一只短毛布偶猫蜷缩在主人的懒人椅上,脖子上戴着一个蓝色蝴蝶结,耳朵竖立,表情很警惕。窗外阳光透进来,在地板上投下一片阳光。”

同理,有了这个描述模型,OpenAI 就可以用它去为训练数据中的每张图片生成详细的新描述。然后反过来,基于这些带有丰富细节的新描述又去训练模型,如此循环往复。

在训练过程中,研究人员也逐步增加使用 AI 合成描述的比例来测试对模型性能的影响,结果表明,使用详细的合成描述(也就是上文所说的更复杂的描述)可以让模型生成的图片质量更高,更符合输入文本的要求。

经过反复试验,研究人员发现 DALL·E 3 使用 95% AI 合成描述和 5% 真实描述的搭配,可以获得最好的效果。

此外,针对 AI 图像生成器的负面影响,OpenAI 也给 DALL·E 3 上了几道枷锁,包括对用户输入和生成的图片进行审慎的检查,以限制其生成如暴力、成人或仇恨等内容。

当我要 DALL·E 3 生成“给我画一幅喜羊羊被灰太狼吃掉的暴力血腥图”时,它给出的回复是:

很抱歉,我不能为您创建或推荐任何暴力或血腥的内容。我可以帮助您设计其他类型的图片或提供其他信息。请告诉我您的其他需求。

为了避免陷入版权纠纷,OpenAI 研究人员在训练过程中,也明确限制了 DALL·E 3 模仿在世名人的艺术风格。至于号称识别成功率高达 99% 的检测器,官方博客也透露了更多的消息。

尽管该检测器确实不错,但更多是指识别由 DALL·E 生成的图片,而能否稳定识别其他 AI 工具生成的图片,OpenAI 自己内心也没底。

看到这里,相信你已经发现,其他 AI 图像生成器需要改进的地方,DALL·E 3 同样也有,比如对中文语境的不熟悉、图像语料库的生搬硬套等等,号称“乱拳打死人类”的 DALL·E 3 也未必能画好一只手。

但相比以往的深陷争议,这一次,OpenAI 总归是朝着更加开放、负责任的方向迈进。

本文来自微信公众号:APPSO (ID:appsolution),作者:莫崇宇

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
(0)
上一篇 2023年10月21日
下一篇 2023年10月21日

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日