打败Midjourney，这个谷歌大牛推出的AI产品凭什么弯道超车

2024年3月31日 08:19 • 未来科技

没有谁能一直称王，但加上前缀谁都有称王的机会。

AI 文生图，还能玩出什么新花样？

在这片群雄割据的红海，头部被 Midjourney、DALL·E、Stable Diffusion 等占据，其余还能让人眼前一亮的产品并不多。

然而，仍有黑马杀出：Ideogram，前 Google 工程师创立，硅谷 AI 大神投资，去年 8 月面世，2 月底发布了最新的模型。

Ideogram 的特别在于，擅长生成包含文本的图片，这恰恰是几大巨头都在改善的难题。

事实证明，从别人跌倒的地方爬起来，不失为一种弯道超车的方式。

能“画图”和“摄影”，但 AI 可能还是个“文盲”

让 AI 精准生成文字，向来是个痛点，哪怕生成的人物和风景像相机拍出来的，那些如同乱码的扭曲文字，瞬间让 AI 原形毕露。

Midjourney v5.2 生成的错误文字

Ideogram 站出来表示，拒绝让 AI 继续做个“文盲”，不妨先从它开始。

接触 Ideogram 的门槛很低，打开网页（https://ideogram.ai/）登录就能用，界面看起来也清爽不复杂。

生成一张图片的步骤不多，在输入框填完提示词，再根据你想要的效果，勾选图片长宽比，以及照片、海报、3D 渲染等图片样式。

Ideogram 还考虑到了人类可能是提示词“苦手”，今年 2 月推出了“魔法提示”，这就像一个内置的 ChatGPT，帮你完善提示词，由 AI 拿捏同类的心思。

包含文本内容的图片有哪些？产品标志、T恤印花、书籍封面、电影海报……

我们先来个入门级考验，让几个人举起写着动物名称的指示牌，乍看文本对了，但脸和手不太正常，两者相互抵消，原来短板没有消失，只是转移了。

如果只让 Ideogram 写字，效果便惊艳得多。

让 AI 生成马斯克的经典句子“我宁愿乐观而错误，也不愿悲观而正确”，除了“W”有瑕疵，其他单词都写对了。

字体活泼了些，70 后的马斯克不知道能不能接受，但碰撞的黑白色，应该能让爆改小蓝鸟的他满意。

再拿经典谚语“只工作不玩耍，聪明的孩子也变傻”作为考题，虽然提示词强调了使用打印机字体，但 Ideogram 没能做到。看来光用提示词还不能定义字体，只能取个近似值。

接着，命令 AI 为一家叫作“Coffee AI”的 AI 初创公司设计 logo。

主体是个电路图案的咖啡杯，右上角有个机器人咖啡师，公司名称用粗体大写字母写成，排版简单和克制，作为 logo 来看很直观，但总体来说在意料之中，很难让甲方心动拍板。

该给 AI 上难度了，句子更长，对设计的要求更高。

我要求 Ideogram 为儿童绘本设计内页，不仅要在醒目的位置写着“穿袜子的狐狸和戴礼帽的兔子”，底部还得标注“匿名”。

对于这两行文字，Ideogram 基本完成了任务，用上了手绘字体和粉笔涂鸦，甚至配了符合题意的插图，绘本的味道对了，但错误也很显眼，“in”这个单词有些问题，兔子长得像狐狸还和狐狸称兄道弟。

Ideogram 同样可以拿来做电影海报，不妨拿前段时间爆火的、阮经天主演的电影《周处除三害》试试水。

我在提示词里杂糅了典故和电影，背景用到侠士剪影、海、山的意象，文字部分参考电影的英文名：猪、蛇和鸽子。

除了漏了一个“the”，最终的海报效果还不错，融合了古典的形象和现代的字体，鸽子涂鸦堪称点睛之笔，但总体更像西幻风，让人觉得陌生，很难联想到电影的剧情。

体验下来发现，其实 Ideogram 在文字上出错的概率不小，有时候生成两三次，才能得到一字不差的理想结果。

就算文本对了，人物的脸和手指也经常翻车。

它可能还会加些花里胡哨的小动作，随机生成无意义且扭曲的文字，自己打脸自己。

这里的小字就糊成一团了

但总体来说，Ideogram 让人惊喜，可以写对长句子，并且用上合适的字体和排版方式配合画面氛围，尽管目前还不能写中文，但如同鬼画符的几个字非常贴合衣服褶皱。

这四个字其实是“恭喜发财”

瑕不掩瑜，Ideogram 的就业场景已经很多了。设计 logo、海报、T 恤图案时，它都可以作为灵感参考和创意辅助。

以前担心 AI 会“画画”和“摄影”，以后还怕 AI 有文化和会设计。

审美不输 Midjourney，还是个表情包神器

AI 的进步按天衡量，可能一觉醒来世界就发生了变化。虽然 Ideogram 表示自己的文本渲染能力最强，但对手们也不服输。

还未公开发布和开源的 Stable Diffusion 3 在 2 月官宣，改进了文字拼写能力。

Stable Diffusion 3 的拼写能力

去年 12 月发布测试版的 Midjourney v6，是第一个具有可靠文本生成功能的 Midjourney 版本。

不过，它的要求也依然比较苛刻，除了必须把文字放在引号内，提示词最好解释文本的位置和书写方式，并用到“印刷”“写下”等关键词，一到两个词的文本生成效果最好。

Midjourney v6 的文本生成功能

被追赶的 Ideogram 团队不慌，认为优势在我，Ideogram 仍然拥有更高的准确率，并且能够处理复杂的长句。

Ideogram 的系统评估也表明，Ideogram 1.0 渲染文本的准确性最高，与 DALL·E 3 等其他模型相比，错误率降低了近 2 倍。

光说不练假把式，不如拿相同的提示词，让 Ideogram 1.0 和 Midjourney V6、DALL·E 3 同台竞技。

先来比较生成文本的准确度，我要求 AI 们绘制一幅浮世绘风格的日出插图，《飘》的经典台词“明天又是新的一天”放置在合适的位置，表现希望和新生。

这次，Ideogram 完胜，拼写准确，线条和色彩的设计也很大胆和出众。

向来差点艺术细胞的 DALL·E 竟然意外得有质感，文字基本对了但没完全对，画风更加抽象，Midjourney 不仅文字不准确，审美也落了下风，甚至没有认真听题。

左为 DALL·E，右为 Midjourney

二是比拼造梗能力，Ideogram 官方特意提到了生成表情包的功能，借助“魔法提示”，AI 会发挥自己的想象力扩写提示词，配上文案，让图片有感情色彩。

我想看 AI 能不能生成打工猫表情包，于是输入了提示词：“画一个有趣的梗图，关于一只戴着领结和衬衫、在电脑前打字的泪流满面的猫，比喻人类打工的辛苦。”

Ideogram 发挥脑洞，自觉地加了句文案“猫也得工作”。

美中不足的是多了个“have”，前爪的指头数量也不对，看来 AI 不仅仅对人手犯难，拿猫爪也没辙。对比原版表情包，算是中规中矩，不能像“流泪猫猫头”一击即中。

左为网图，右为 Ideogram

Midjourney 的猫严肃且优雅，仿佛是个已经财富自由的作家，看起来更像在拍杂志写真，但这鼠标不知道怎么回事。

左为 Midjourney，右为 DALL·E.

DALL·E 情感最为到位，画风虽然随意了些，但粗糙有粗糙的好处，仿佛不在一个图层的面条泪有内味了，真的很适合拿来当表情包用。

三是对复杂的长提示词的理解能力，尤其是提示词的元素是否齐全、出现的位置是否准确，所以我输入了比较啰嗦的提示词，规定了各个主体的位置。

Ideogram 在整体构图上表现得更好，提示词说到的几个要点都覆盖了，心形牌子、机器人、宇航员、气球和奖牌都有，虽然宇航员的手、奖牌的字等细节出了问题。

相比之下，Midjourney 更有艺术感，但要素缺失，又多了些有的没的装饰，更有自己的想法和个性，DALL·E 不仅要素缺失，细节出错，还不好看。

上为 Midjourney，下为 DALL·E.

所以抛开文字，光看出图质量，Ideogram 也不差，有时候对提示词里各个物体空间关系的还原，比其他 AI 还要更加准确。

从使用体验来说，Ideogram 的生成速度比 Midjourney 快，一般十几秒就能完成四张图片。

甚至根据行业的评估规则，人类评估者在提示对齐、图像连贯性、整体偏好和文本渲染质量方面，更喜欢 Ideogram 1.0，而不是 DALL·E 3 和 Midjourney V6。

哪怕你不满意 Ideogram 生成的图，把它的魔法提示词拿去用，在 Midjourney 和 DALL·E 的生成效果，可能也比自己手搓更好，不失为一种优化提示词的方式。

没人能在我的 BGM 里打败我，但同个提示词给不同 AI 使用，胜负还真不一定。

Google 工程师创办的明星公司，接地气的 AI 产品

Ideogram 成立于去年 8 月，今年 2 月推出最新的模型 Ideogram 1.0。

这又是一家明星公司，创始团队共 7 人，来自 Google Brain、加州大学伯克利分校、卡内基梅隆大学和多伦多大学，其中 4 位是 Google 文生图扩散模型 Imagen 研究论文的作者。

谨小慎微的 Google 经常在推出产品时慢半拍，多次眼睁睁看着对手在全球声名大噪，聊天机器人被 ChatGPT 抢先，Imagen 也被 DALL·E 2 超车。

从工程师们的角度看，研究成果无法落地为面向消费者的应用并非好事。不少人选择了离开，亲自打造新的产品，尽量开放使用，先积累下用户规模和口碑。

Ideogram 一天 25 次提示词的免费额度，可能也是出于这样的考虑。

市场很看好这个产品，Ideogram 完成了硅谷风投 a16z 领投的 8000 万美元 A 轮融资，投资者中还有 AI 大神，包括 Google 首席科学家 Jeff Dean、OpenAI 创始团队成员 Andrej Karpathy。

其实在体验了很多 AI 产品之后，我暗暗有一个疑问：怎么定义一款产品好用性？

Ideogram 生成的 T 恤图案

之前让我觉得好用的，是插件“沉浸式翻译”，它不像 Google 翻译覆盖原文，可以中英文对照，不仅是新闻网页，X 信息流、YouTube 字幕、PDF 文件，都能用上。

Ideogram 似乎也是这样接地气。一方面，它可以更加精准地生成用户所需的文字内容，并适配各种风格的图片。另一方面，它也能无中生有，为图片配上契合的文字，比如表情包。

虽然 Ideogram 生成的结果很多也不能拿来就用，但至少基本符合提示词要求，文字大多可读。

我也在体验中发现， Ideogram 的写实类图片一般，但涂鸦、插图、绘画方面不错，艺术天赋向 Midjourney 看齐。

Ideogram 生成的涂鸦艺术插图

Ideogram 的官网还有各种作品的热度排行榜。打开网站的瞬间，你仿佛误入了一个 ins 风的图片社区，上面的提示词也都可以学习。

当 AI 工具兼具了创意、便利和分享，就很容易让人上头，具体的表现是，一天的 25 次提示词很快用完，这焦急的感觉，和等待 Suno 的积分更新差不多。

如果是每月 7 美元或者 16 美元的会员，除了更多生成次数，Ideogram 还提供了图像上传和编辑器的功能。

图像上传指的是，用户上传自己的图片，然后通过 Remix 功能再创作。

左为原图，右为输出

编辑器除了裁剪、缩放等常规功能，还有一个很有意思的绘图工具，从一幅抽象的图画生成图片。人类的画工粗糙勾勒各个元素的形状、构图、颜色等，AI 负责化腐朽为神奇，有些神笔马良的既视感。

Ideogram 能从血雨腥风里杀出，好用当然是最重要的，同时它的定位也很准确。

如果美学是最重要的标准，那么 Midjourney 一骑绝尘。虽然 DALL·E 的水平时好时坏，但内置于 ChatGPT 调用方便，开源的 Stable Diffusion 则带来了自由。

单论用户规模，Ideogram 可能哪个都打不过，但它的长板做得很好，应当也能收获自己稳固的受众。

至少免费可用的 AI 图像生成器里面，Ideogram 的整体质量领先，网页使用方便，提供免费额度，文本渲染强大，魔法提示功能和创作者社区提供创意和灵感。

文生图模型们还远非完美，仍在努力地还原物理世界，或者向画家和设计师看齐。更多的 Ideogram，或许仍能找到自己的一席之地。

这也正是 AI 竞争的残酷和魅力所在，不知道谁能笑到最后，但永远有新的对手瞄准阿喀琉斯之踵加入。

本文来自微信公众号：爱范儿（ID：ifanr），作者：张成晨

声明：该内容为作者独立观点，不代表新零售资讯观点或立场，文章为网友投稿上传，版权归原作者所有，未经允许不得转载。新零售资讯站仅提供信息存储服务，如发现文章、图片等侵权行为，侵权责任由作者本人承担。如对本稿件有异议或投诉，请联系：wuchangxu@youzan.com

Like (0)

展开聊聊小米汽车的“防晒隔热”玻璃

Previous 2024年3月30日

柔宇“柔性星球”梦碎

Next 2024年3月31日

水温80度：AI行业真假繁荣的临界点

我们从来没拥有过这么成功的AI主导的产品。

（这种分析统计并不那么准，但大致数量级是差不多的）

这两个产品碰巧可以用来比较有两个原因：

一个是它们在本质上是一种东西，只不过一个更通用，一个更垂直。

蓝海的海峡

未来成功的AI产品是什么样，大致形态已经比较清楚了，从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时“罢工”，全网打工人都慌了

美西时间午夜12点开始，陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载，忽然无法正常工作了。

因为发现AI用久了，导致现在“离了ChatGPT，大脑根本无法运转”。”

等等，又不是只有一个聊天机器人，难道地球离了ChatGPT就不转了。

大模型连崩原因猜想，谷歌躺赢流量激增6成

GPT归位，人们的工作终于又恢复了秩序。

未来科技 2024年6月5日
ChatGPT宕机8小时，谷歌Gemini搜索量激增60%

ChatGPT一天宕机两次

谷歌Gemini搜索量激增近60%

ChatGPT在全球拥有约1.8亿活跃用户，已成为部分人群工作流程的关键部分。

过去24小时内提交的关于OpenAI宕机的问题报告

图片来源：Downdetector

ChatGPT系统崩溃后，有网友在社交媒体X上发帖警告道：“ChatGPT最近发生的2.5小时全球中断，为我们所有依赖AI工具来支持业务的人敲响了警钟。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时大崩溃，AI集体罢工让全网都慌了

接着OpenAI也在官网更新了恢复服务公告，表示“我们经历了一次重大故障，影响了所有ChatGPT用户的所有计划。Generator调查显示，在ChatGPT首次故障后的四小时内，谷歌AI聊天机器人Gemini搜索量激增60%，达到327058次。

而且研究团队表示，“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关，显示出用户把Gemini视为ChatGPT的直接替代选项。

未来科技 2024年6月5日
深度对话苹果iPad团队：玻璃的传承与演变

iPad最为原始的外观专利

没错，这就是iPad最初被设想的样子：全面屏，圆角矩形，纤薄，就像一片掌心里的玻璃。

2010年发布的初代iPad

好在乔布斯的遗志，并未被iPad团队遗忘。

初代iPad宣传片画面

乔布斯赞同这一想法，于是快速将资源投入平板电脑项目，意欲打造一款与众不同的「上网本」，这就是iPad早年的产品定义。

iPad进化的底色

苹果发布会留下过很多「名场面」，初代iPad发布会的末尾就是一例。

未来科技 2024年6月5日
底层逻辑未通，影视业的AI革命正在褪色…

GPT、Sora均为革命性产品，引发了舆论风暴，但它在上个月发布的“多模态语音对谈”Sky语音，却由于声音太像电影明星斯嘉丽·约翰逊，被正主强烈警告，被迫下架。

华尔街日报也在唱衰，认为“AI工具创新步伐正在放缓，实用性有限，运行成本过高”：

首先，互联网上已经没有更多额外的数据供人工智能模型收集、训练。

03、

如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向，那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

但分歧点正在于此，电影公司希望通过使用AI技术来降低成本，但又不希望自己的内容被AI公司所窃取。

未来科技 2024年6月5日
KAN会引起大模型的范式转变吗？

“先变后加”代替“先加后变”的设计，使得KAN的每一个连接都相当于一个“小型网络”，能实现更强的表达能力。

KAN的主要贡献在于，在当前深度学习的背景下重新审视K氏表示定理，将上述创新网络泛化到任意宽度和深度，并以科学发现为目标进行了一系列实验，展示了其作为“AI+科学”基础模型的潜在作用。

KAN与MLP的对照表：

KAN使神经元之间的非线性转变更加细粒度和多样化。

未来科技 2024年6月5日
这个国家，也开始发芯片补贴了

//mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
[4]中国安防协会：欧盟批准430亿欧元芯片补贴计划：2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
[6]潮电穿戴：印度半导体投资大跃进，一锤砸下1090亿，政府补贴一半.2024.3.5https。

未来科技 2024年6月5日
大模型的电力经济学：中国AI需要多少电力？

这些报告研究对象（数字中心、智能数据中心、加密货币等）、研究市场（全球、中国与美国等）、研究周期（多数截至2030年）各不相同，但基本逻辑大同小异：先根据芯片等硬件的算力与功率，计算出数据中心的用电量，再根据算力增长的预期、芯片能效提升的预期，以及数据中心能效（PUE）提升的预期，来推测未来一段时间内智能数据中心的用电量增长情况。

未来科技 2024年6月5日
你正和20万人一起接受AI面试

原本客户还担心候选人能否接受AI面试这件事，但在2020年以后，候选人进行AI面试的过程已经是完全自动化的，包括面试过程中AI面试官回答候选人的问题，AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

以近屿智能与客户合作的校验周期至少3年来看，方小雷认为AI应用不太可能一下子爆发，包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

未来科技 2024年6月4日

打败Midjourney，这个谷歌大牛推出的AI产品凭什么弯道超车

相关推荐