最强文生图模型Stable Diffusion 3是怎么炼成的?

Stable。

MMDiT架构:Stable。

这一架构采用了独立的权重集合来处理图像和语言表示,这意味着对于文本和图像两种不同的输入模态,MMDiT。

性能碾压其他文生图模型

通过与其他文本到图像生成模型进行性能比较,Stable。架构对图像和文本表示的独立处理,使得模型能够更好地理解和表达文本提示,并生成与之匹配的高质量图像。

在文本到图像生成领域,Stable。

上个月,Stability AI 发布了其第三代文生图大模型 Stable Diffusion 3。该模型展现出了超越现有文本到图像生成系统的强大性能,为文本到图像生成技术带来了重大突破。

昨天,Stability AI 终于发布了 Stable Diffusion 3 技术报告,帮助我们一窥 Stable Diffusion 3 背后的技术细节。报告要点如下:

众所周知,Stable Diffusion 3 在排版和提示遵循等方面表现出色,超越了 DALL·E 3、Midjourney v6 和 Ideogram v1 等最先进的文本到图像生成系统。其中:

  • 与其他开放模型和封闭源系统相比,Stable Diffusion 3 在视觉美观度、提示遵循和排版等方面表现出色。

  • Stable Diffusion 3 采用了重新加权的矩形流形式,以改善模型性能。与其他矩形流形式相比,它的表现更为稳定。

  • 新的多模态扩散 Transformer(Multimodal Diffusion Transformer,MMDiT)架构使用独立的权重集合来处理图像和语言表示,相比于之前的版本,改善了文本理解和拼写能力。

  • MMDiT 架构结合了 DiT 和矩形流(RF)形式。它使用两个独立的变换器来处理文本和图像嵌入,并在注意力操作中结合两种模态的序列。

  • MMDiT 架构不仅适用于文本到图像生成,还可以扩展到多模态数据,比如视频。

  • 移除内存密集型的 T5 文本编码器可以显著减少 SD3 的内存需求,仅伴随少量性能损失。

图|来自 8B 整流模型的高分辨率样本,展示了其在排版、精确的提示跟随和空间推理,对细节的关注以及各种风格的高图像质量方面的能力。

(完整技术报告见链接。)

接下来,让我们结合报告,一窥 Stable Diffusion 3 背后的技术细节。

MMDiT架构:Stable Diffusion 3背后的关键技术

MMDiT 架构是 Stable Diffusion 3 背后的关键技术之一。相比传统的单一模态处理方法,MMDiT 架构能够更好地处理文本和图像之间的关系,从而实现更准确、更高质量的图像生成。

图|模型架构。

这一架构采用了独立的权重集合来处理图像和语言表示,这意味着对于文本和图像两种不同的输入模态,MMDiT 分别使用不同的权重参数来进行编码和处理,以此能够更好地捕捉每种模态的特征和信息。

在 MMDiT 架构中,文本和图像的表示分别通过预训练模型进行编码。具体地说,MMDiT 采用了三种不同的文本嵌入器(两个 CLIP 模型和 T5 模型),以及一个改进的自动编码模型来编码图像 token。这些编码器能够将文本和图像输入转换为模型可以理解和处理的格式,为后续的图像生成过程提供了基础。

图|T5 对于复杂提示非常重要,例如,涉及高度细节或较长的拼写文本(第 2 行和第 3 行)。然而,对于大多数提示,在推理时删除 T5 仍然可以达到具有竞争力的性能。

在模型结构上,MMDiT 架构建立在 Diffusion Transformer(DiT)的基础上。由于文本和图像的表示在概念上有所不同,MMDiT 使用了两组独立的权重参数来处理这两种模态。这样一来,模型能够在文本和图像的表示空间中分别进行操作,同时又能够考虑到彼此之间的关联关系,从而实现更好的信息传递和整合。

性能碾压其他文生图模型

通过与其他文本到图像生成模型进行性能比较,Stable Diffusion 3 展现出了明显的优势。在视觉美感、文本遵循和排版等方面,Stable Diffusion 3 都能够超越包括 DALL·E 3、Midjourney v6 和 Ideogram v1 在内的最先进系统。

 

这一优势主要归功于 MMDiT 架构对图像和文本表示的独立处理,使得模型能够更好地理解和表达文本提示,并生成与之匹配的高质量图像。通过人类评估者提供的例子输出进行比较,Stable Diffusion 3 在视觉美感方面与其他模型相比表现出色。评估者被要求根据图像的美观程度选择最佳结果。结果显示,Stable Diffusion 3 在生成的图像美观度方面优于其他模型。

图|这是一幅异想天开、富有创意的图像,描绘了一种混合了华夫饼和河马的生物。这种富有想象力的生物有着河马独特的、笨重的身体,但它的外观却像一块金棕色的脆皮华夫饼。该生物的皮肤上有华夫饼,还有糖浆般的光泽。这设置在一个超现实的环境中,有趣地结合了河马的自然水域栖息地和早餐餐桌,包括超大的餐具或盘子作为背景。图像唤起一种有趣的荒诞感和烹饪幻想。

评估者根据模型输出与所给提示的一致性来评价模型的文本遵循能力。从测试结果来看,Stable Diffusion 3 在文本遵循方面表现优异,能够更准确地根据提示生成相应的图像内容。

排版指的是模型生成的图像中文本的布局、格式和外观。根据评估者的选择,Stable Diffusion 3 在排版方面也表现出色,能够更好地呈现出给定提示中的文本信息,使生成的图像更具可读性和吸引力。

另外,在不同硬件设备上的性能表现方面,Stable Diffusion 3 也展现出了出色的灵活性。 

例如,在 RTX 4090 等设备上,最大模型(8B 参数)在进行图像生成时,可以在 34 秒内生成一幅分辨率为 1024×1024 的图像,而且还能够在初期预览阶段提供多种参数模型选择,从 800m 到 8B 参数的模型规模,以进一步消除硬件方面的限制。 

在消费者级硬件上,Stable Diffusion 3 依然可以有较快的推断速度,并且资源利用率高。

此外,该技术提供了多种模型规模选择,以满足不同用户和应用场景下的需求,增强了其可扩展性和适用性。

Stable Diffusion 3 不仅注重了图像生成的质量,还专注于文本的对齐和一致性。其改进的 Prompt Following 功能使得模型能够更好地理解输入文本并根据其创作图像,而不仅仅是简单地产生图像。这种灵活性使 Stable Diffusion 3 能够根据不同的输入文本生成多样化的图像,满足不同主题和需求。 

Stable Diffusion 3 采用了改进的 Rectified Flow(RF)方法,通过线性轨迹将数据和噪声相连接,使得推断路径更直,从而在少量步骤内进行采样。同时,Stable Diffusion 3还引入了一种新的轨迹采样调度,将更多的权重分配给轨迹的中间部分,从而改进了预测任务的难度。这种创新的方法改善了模型的性能,并在文本到图像生成任务中取得了更好的效果。

在文本到图像生成领域,Stable Diffusion 3 的问世标志着技术的重大进步。通过 MMDiT 架构的创新、Rectified Flow 的优化以及对硬件设备和模型规模的灵活调整,Stable Diffusion 3 在视觉美感、文本遵循和排版等方面表现出色,超越了当前的文本到图像生成系统。

Stable Diffusion 3 的诞生,不仅提高了生成图像的质量和准确性,还为未来的创意产业、个性化内容生成、辅助创作工具以及增强现实和虚拟现实应用等领域带来了新的可能性。

未来,随着这项技术的进一步发展和普及,我们可以期待看到更多创新的应用场景和解决方案。

参考链接:

https://stability.ai/news/stable-diffusion-3-research-paper

本文来自微信公众号:学术头条(ID:SciTouTiao),作者:学术头条

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
(0)
上一篇 2024年3月6日 10:02
下一篇 2024年3月6日 10:12

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日