Midjourney V6刷屏，但它最可怕的地方居然不是那些神图？

2023年12月24日 17:50 • 未来科技

图片来源：X.com

也就是说，这是像Midjourney这样的图像模型一直在做的事情，训练越久，优化越久，它的图像“放大”能力就越强，也就会逐渐产生关于文字的生成能力。

在直觉上，这种能力肯定不如“纯粹”的语言模型的语言能力，但一些研究已经在给出不同的指向，在多模态领域很重要的模型VLMO的论文里就曾提到一个有意思的结论，当你完全拿一个在视觉数据上训练好的模型，可以直接对文本数据建模，甚至不需要微调就可以有很强的文本生成能力。

Midjourney在沉寂九个月后推出了Midjourney V6，这个文生图产品体现出的更细腻的细节处理，更强大的语言理解能力和更加“不像AI”的图片效果在过去几天引发一片惊呼。

作为一个闭源的模型产品，Midjourney的魔法配方并不为人所知，但就像OpenAI和Google一样它会在产品更新时发布官方技术公告，有心人还是可以从中一窥模型能力提升的技术原理。

而我们去扒了扒它透露的信息后，发现这次更新的意义远不止于大家晒的那一张张精美的图片上…….

Midjourney v6生成，电影月光光心慌慌的假剧照，图片源自reddit

图片模型的突破，靠的却是语言模型能力？

“Midjourney v6作为一个“文生图”模型，此次改进的核心能力却来自其自然语言处理能力的提升。

这首先是对提示词理解的’跟随能力’的提升。在其官方文档中，这被称为“prompt following”。简单来说，这就是指系统对用户输入的提示词的理解和响应能力。通过增强这一能力，Midjourney现在能够更好地解析复杂的提示，无论是关键词、命令还是问题，都能够准确把握。

Midjourney v6生成，电影疤面煞星的假剧照，图片源自reddit

第二个显著的更新是提示词的长度。用户现在可以输入更长的提示词。这一方面得益于上面提到的模型跟踪能力的增强，另外则依靠模型连贯性的提升。

所谓连贯性，用一个经典的故事就能解释。A问B：“下午大扫除，你来吗？”B说：“我去！我不去！”那么B的意思毫无疑问是不去，因为上文中的大扫除非常累，而B说的“我去！”在这里则表示惊讶，能够准确理解这个对话，就叫连贯性。它确保了模型在处理用户哪怕很复杂的指令输入时，也能够逻辑一致地响应。

Midjourney v6生成，李奥纳多在网飞出演电视剧的海报，图片源自reddit

这两个自然语言能力上的改进，Midjourney具体是如何做的？

在跟随能力方面的改进，主要基于三个方面：

上下文管理，它通过分析上下文关系来更准确地理解用户意图；序列建模，利用循环神经网络（RNN）和长短时记忆网络（LSTM）来捕捉对话中的长期依赖；以及交互状态跟踪，它持续追踪用户的目标、意图和对话状态，以确保系统响应的连贯性。

这些改进看起来就像是一个大语言模型的进化中在做的事情。

Midjourney v6生成，圣诞夜惊魂版的小丑和哈莉奎茵，图片源自reddit

但它毕竟是个文生图模型，也就是语言能力和图片能力结合的模型，这其实也给它在提升能力时带来了优势——与语言模型的对话产品形态总是涉及隐私与所属的问题不同，Midjourney v6生成的图片目前来看，全部是公共资源。

也就是说你花钱买了服务以后，图片是公共的，模型会生成两份，你拿一份，V6的服务器（也就是V6 discoard）也拿一份。那么Midjouney可以拿这些“实战”反过来加入到自己的预训练大模型中，继续训练模型以提高性能。

Midjourney v6生成，一只猫拿着手枪，图片源自reddit

所以这还引出一个有意思的话题，如果文生图因此而能够源源不断拥有更高质量的数据来反哺到预训练阶段，而数据真的成为模型训练的决定性因素后，是不是文生图模型有可能训练出比大语言模型更强的语言能力？

在连贯性提升上其实就已经有一点这个味道。对于大语言模型来说，想要提高连贯性并不简单，涉及了多方面的因素。但是作为一个使用自然语言来生成图片的模型，事实上简化了过程，由于它不涉及与用户进行持续对话，因此无需应用束搜索等启发式算法，也无需处理自然语言生成中的后处理问题，如语法校正和风格调整。这种简化使得Midjourney在提高连贯性方面只需专注于核心任务，从而显著提升了其在理解和响应用户输入时的逻辑一致性。

Midjourney v6生成，猎魔人杰洛特与超人的结合，二者皆由同一演员亨利·卡维尔饰演，图片源自reddit

懂视觉的模型能有更好的文字能力？

图像模型却靠语言能力突破，这其实已经不是第一次。此前同样引发一阵骚动的Dalle3，也是如此。作为OpenAI的模型，背靠ChatGPT，语言能力自然更强。

在对比了两者后我发现V6在语言理解上其实还是较DALL·E有一定差距。最明显的地方就在于适应性上。适应性代表系统在能适应不同用户的语言风格和表达方式，以及在面对新的或未见过的情况时保持响应连贯性的能力。可能是DALL·E背靠ChatGPT，所以在对自然语言各方面的性能上会更优异一些。

但Midjourney似乎也在瞄着ChatGPT为代表的语言模型的能力来进化。在此次的更新中，V6增加的另一个非常重要的能力，也与语言有关。Midjourney称，其现在拥有了文本绘制能力，虽然依然较弱。

对于人工智能绘图来说，能绘制文本无疑是一项重大进步。

文字不再是乱码。图源：X.com

这个能力并非像看起来那样，直接来自模型里大语言模型的模块。在官方更新里，文本绘制能力后紧随的是图像放大功能的更新。它们原理比较复杂，但本质其实是同一个问题。

图像生成模型在训练的时候所用的数据，是一些通过泛化和模糊处理的图像内容。我们都知道，分辨率越高的图片数据量越大，反之，越模糊越泛化的图片它的数据量就越小。人工智能理解图片的方式和人类完全不一样，他们是按照统计学的一个概念叫做“模式识别”，通过图片中的特征来理解。使用泛化和模糊的图片好处在于，小数据量的图片读取速度快，训练时间就短。但想要用这种训练方式来理解文字是非常难的，因为文字是一种符号，这种泛化处理对于图像中的文字尤其不利，即使是微小的变形或模糊都可能导致文字难以辨认。同时，训练所使用的图像分辨率很低，那么生成图片时，分辨率也不会高到哪里去。

图片上的文字与图像整体风格融合。图片来源：X.com

而Midjourney的训练方法，其实就是在训练它的图像“放大”能力。它所使用的模型叫做去噪扩散概率模型（denoising diffusion probabilistic models），这种模型通过模拟从噪声中提取信息的过程来生成清晰的图像。想象一下，就像我们用软件修复模糊的老照片，Midjourney的模型也能够从模糊的图像中“学习”到清晰的细节。

图片来源：X.com

在直觉上，这种能力肯定不如“纯粹”的语言模型的语言能力，但一些研究已经在给出不同的指向，在多模态领域很重要的模型VLMO的论文里就曾提到一个有意思的结论，当你完全拿一个在视觉数据上训练好的模型，可以直接对文本数据建模，甚至不需要微调就可以有很强的文本生成能力。但反过来用语言训练在视觉上生成，则差很多。

这也许就是视觉想对文字说的话。图源：X.com

这是一种很奇怪也很有意思的现象，这一次V6似乎把它再一次轻微地展示出来了。而更重要的是在今天多模态大模型已经成为未来最重要的趋势时，一个图像能力为主的模型产生文字能力给了走向多模态一个新的思路。

世界更精彩了。

本文来自微信公众号：硅星人Pro（ID：Si-Planet），作者：苗正、王兆洋

声明：该内容为作者独立观点，不代表新零售资讯观点或立场，文章为网友投稿上传，版权归原作者所有，未经允许不得转载。新零售资讯站仅提供信息存储服务，如发现文章、图片等侵权行为，侵权责任由作者本人承担。如对本稿件有异议或投诉，请联系：wuchangxu@youzan.com

Like (0)

“人造子宫”是怎么回事？

Previous 2023年12月24日

马斯克的“超级高铁”梦破灭

Next 2023年12月24日

水温80度：AI行业真假繁荣的临界点

我们从来没拥有过这么成功的AI主导的产品。

（这种分析统计并不那么准，但大致数量级是差不多的）

这两个产品碰巧可以用来比较有两个原因：

一个是它们在本质上是一种东西，只不过一个更通用，一个更垂直。

蓝海的海峡

未来成功的AI产品是什么样，大致形态已经比较清楚了，从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时“罢工”，全网打工人都慌了

美西时间午夜12点开始，陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载，忽然无法正常工作了。

因为发现AI用久了，导致现在“离了ChatGPT，大脑根本无法运转”。”

等等，又不是只有一个聊天机器人，难道地球离了ChatGPT就不转了。

大模型连崩原因猜想，谷歌躺赢流量激增6成

GPT归位，人们的工作终于又恢复了秩序。

未来科技 2024年6月5日
ChatGPT宕机8小时，谷歌Gemini搜索量激增60%

ChatGPT一天宕机两次

谷歌Gemini搜索量激增近60%

ChatGPT在全球拥有约1.8亿活跃用户，已成为部分人群工作流程的关键部分。

过去24小时内提交的关于OpenAI宕机的问题报告

图片来源：Downdetector

ChatGPT系统崩溃后，有网友在社交媒体X上发帖警告道：“ChatGPT最近发生的2.5小时全球中断，为我们所有依赖AI工具来支持业务的人敲响了警钟。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时大崩溃，AI集体罢工让全网都慌了

接着OpenAI也在官网更新了恢复服务公告，表示“我们经历了一次重大故障，影响了所有ChatGPT用户的所有计划。Generator调查显示，在ChatGPT首次故障后的四小时内，谷歌AI聊天机器人Gemini搜索量激增60%，达到327058次。

而且研究团队表示，“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关，显示出用户把Gemini视为ChatGPT的直接替代选项。

未来科技 2024年6月5日
深度对话苹果iPad团队：玻璃的传承与演变

iPad最为原始的外观专利

没错，这就是iPad最初被设想的样子：全面屏，圆角矩形，纤薄，就像一片掌心里的玻璃。

2010年发布的初代iPad

好在乔布斯的遗志，并未被iPad团队遗忘。

初代iPad宣传片画面

乔布斯赞同这一想法，于是快速将资源投入平板电脑项目，意欲打造一款与众不同的「上网本」，这就是iPad早年的产品定义。

iPad进化的底色

苹果发布会留下过很多「名场面」，初代iPad发布会的末尾就是一例。

未来科技 2024年6月5日
底层逻辑未通，影视业的AI革命正在褪色…

GPT、Sora均为革命性产品，引发了舆论风暴，但它在上个月发布的“多模态语音对谈”Sky语音，却由于声音太像电影明星斯嘉丽·约翰逊，被正主强烈警告，被迫下架。

华尔街日报也在唱衰，认为“AI工具创新步伐正在放缓，实用性有限，运行成本过高”：

首先，互联网上已经没有更多额外的数据供人工智能模型收集、训练。

03、

如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向，那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

但分歧点正在于此，电影公司希望通过使用AI技术来降低成本，但又不希望自己的内容被AI公司所窃取。

未来科技 2024年6月5日
KAN会引起大模型的范式转变吗？

“先变后加”代替“先加后变”的设计，使得KAN的每一个连接都相当于一个“小型网络”，能实现更强的表达能力。

KAN的主要贡献在于，在当前深度学习的背景下重新审视K氏表示定理，将上述创新网络泛化到任意宽度和深度，并以科学发现为目标进行了一系列实验，展示了其作为“AI+科学”基础模型的潜在作用。

KAN与MLP的对照表：

KAN使神经元之间的非线性转变更加细粒度和多样化。

未来科技 2024年6月5日
这个国家，也开始发芯片补贴了

//mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
[4]中国安防协会：欧盟批准430亿欧元芯片补贴计划：2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
[6]潮电穿戴：印度半导体投资大跃进，一锤砸下1090亿，政府补贴一半.2024.3.5https。

未来科技 2024年6月5日
大模型的电力经济学：中国AI需要多少电力？

这些报告研究对象（数字中心、智能数据中心、加密货币等）、研究市场（全球、中国与美国等）、研究周期（多数截至2030年）各不相同，但基本逻辑大同小异：先根据芯片等硬件的算力与功率，计算出数据中心的用电量，再根据算力增长的预期、芯片能效提升的预期，以及数据中心能效（PUE）提升的预期，来推测未来一段时间内智能数据中心的用电量增长情况。

未来科技 2024年6月5日
你正和20万人一起接受AI面试

原本客户还担心候选人能否接受AI面试这件事，但在2020年以后，候选人进行AI面试的过程已经是完全自动化的，包括面试过程中AI面试官回答候选人的问题，AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

以近屿智能与客户合作的校验周期至少3年来看，方小雷认为AI应用不太可能一下子爆发，包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

未来科技 2024年6月4日

Midjourney V6刷屏，但它最可怕的地方居然不是那些神图？

相关推荐