苹果首次披露多模态大模型，AI大招什么时候上iPhone

2024年3月15日 22:45 • 未来科技

具体来说，研究团队在模型架构决策和预训练数据选择进行了小规模的消融实验，探讨了模型架构决策和预训练数据选择，并观察到了几个有趣的趋势：

在模型设计方面，研究人员发现图像分辨率、视觉编码器的损失和容量、以及视觉编码器的预训练数据是至关重要的考量点。

图像编码器的预训练：多数多模态大型语言模型（MLLMs）使用。

一直在大模型浪潮有点克制的苹果，终于不再低调了。在今年的苹果股东大会上，库克罕见地谈及了生成式 AI。

苹果 2024 年将在生成式 AI 领域“开辟新天地”。

今天，苹果首次揭晓了在多模态大型语言模型（LLM）研究领域的最新突破。

这是一篇题为《MM1: Methods， Analysis & Insights from Multimodal LLM Pre-training》的学术论文，里面详细介绍了具有高达 30B 参数规模的系列多模态 LLM。

一、不只是数苹果，超大杯自带火眼金睛

直入主题，先来看看“超大杯” MM1-30B-Chat 的能力。

MM1-30B-Chat 不仅能准确无误地数出图片中苹果、橙子的数量，而且面对一连串数字的识别，也能轻松应对。

难度进一步升级，研究人员设置了一个陷阱问题，询问 MM1-30B-Chat 能看到图片中的红球吗？

并未中招的它能够明确地回应道：“图片中并无红球，我所见到的是一只猫正坐在沙发的枕头上，除此之外，别无他物。”

我们时常在朋友圈上看到飞机上随手一拍的风景图，那 MM1-30B-Chat 会怎么解读这些风景图呢？

目睹这幅图像，人们会体验到敬畏、好奇和宁静等多种情感。飞机窗户外展现的景色令人叹为观止：飞机的机翼下，是一片广阔而雪白的山脉，给人一种宁静和自然之美的深刻感受。

山脉宏伟、层次分明的排列，及其雪峰与明亮的蓝天形成的对比，让人不禁对自然世界充满惊奇和赞赏。

这种视角还提供了一个日常生活中难以体验的独特世界，激发出人们的好奇心和兴奋感。此外，图中未被触及、原始的风景，还能带来平静与安宁之感。

它提取信息的能力也是一流，光靠一张图，就能滔滔不绝地给你解释清楚蒸发和散发的区别。

推理能力是大模型必备的核心竞争力之一，这种能力使得模型能够从有限的信息中提炼出深层次的见解和关联。MM1-30B-Chat 仅凭照片，就能推理出下面这些信息：

海滩上的伞图片显示温度在 25~30 摄氏度。伞已撑开，人们在海滩上，看来是个温暖而阳光灿烂的日子。
飞机飞越雪地的图片显示温度在 -20~-30 摄氏度。飞机正飞越一片雪地，地面上有车辆，显然是一个寒冷的冬日。
动物在田野上吃草的图片显示温度在 15~20 摄氏度。动物正在吃草，这通常发生在温和的天气中。草地的绿色进一步显示出温和的气候特征。

二、MM1 是怎么做到的？

苹果发布的论文里详细披露了背后的研究过程。

得益于大规模图像-文本数据的丰富性和大规模计算能力的普及，多模态大模型已经成为众多顶尖模型的标配。

现有的多语言大型语言模型（MLLMs）主要分为封闭和开放两类。封闭模型的信息有限，而开放模型提供详细的参数、数据和训练配置，便于进一步研究。不过，大多数研究缺乏关于算法设计选择的透明度，特别是在多模态预训练方面。

因此，苹果撰写的这篇论文详细记录了多语言大型语言模型（MLLM）的开发过程，并尝试归纳出宝贵的设计经验。

具体来说，研究团队在模型架构决策和预训练数据选择进行了小规模的消融实验，探讨了模型架构决策和预训练数据选择，并观察到了几个有趣的趋势：

在模型设计方面，研究人员发现图像分辨率、视觉编码器的损失和容量、以及视觉编码器的预训练数据是至关重要的考量点。但出乎意料的是，几乎没有发现有力证据支持视觉数据输入到大型语言模型（LLM）的架构设计对性能有显著影响。

此外，研究人员探索了三种不同的预训练数据类型：图像字幕、交错的图像文本数据以及纯文本数据。

他们发现，对于少样本学习和纯文本任务的性能来说，交错的图像-文本数据和纯文本数据极为关键，而对于零样本学习的性能而言，图像-标题对数据最为重要。

经过监督微调（SFT）阶段后，研究人员证实了这些趋势的持续性，无论是在预训练阶段的评估中，还是在后续的基准测试中。这一发现表明，模型在预训练阶段所展现的能力以及所做出的建模决策，在经过微调之后依然保持其有效性。

在研究的最终阶段，研究团队通过扩展至更大规模的大型语言模型（LLMs），包括 3B、7B 至 30B 参数级别的模型，以及探索混合专家（MoE）模型的不同配置——从拥有 64 个专家的 3B MoE 到拥有 32 个专家的 7B MoE——来进一步增强模型的性能。

预训练模型 MM1 在少样本学习设置中，无论是在小型还是大型规模上，都在标题生成和视觉问答（VQA）任务上超越了 Emu2、Flamingo 和 IDEFICS 等众多先进模型。经过监督微调（SFT）后的最终模型，在 12 个公认的多模态基准测试中展现了竞争力十足的性能。

得益于广泛的大规模多模态预训练，MM1 展现出了一系列引人注目的能力，包括上下文预测、多图像处理和连贯性推理等。

此外，经过指令调优的 MM1 还表现出了卓越的少样本学习能力。这些显著的成果证明了研究团队提出的构建多语言大型语言模型（MLLM）的方法能够有效地将设计原则转化为实际中具有竞争力的规模化模型。

三、构建 MM1 的秘诀

构建高性能多模态大型语言模型（MLLMs）是一项极其依赖经验的工作。虽然高层次的架构设计和训练流程是明确的，但实际形式和执行方式却不明确。

研究人员详细记录了为了构建高性能模型所进行的一系列消融实验。主要有三个设计决策维度：

架构：研究人员研究了不同的预训练图像编码器，并探索了将这些编码器与大型语言模型（LLMs）如何连接。
数据：研究人员考虑了不同类型的数据及其混合比例。
训练流程：研究人员探索了如何训练多模态大型语言模型，包括超参数以及在不同阶段训练模型的哪些部分。

鉴于训练大型多模态语言模型（MLLMs）可能涉及庞大的资源消耗，研究人员采取了一种精简的实验设置来进行消融实验。

1. 模型架构消融

实验过程中，研究者分析了使大型语言模型（LLM）有效处理视觉数据的关键组件。他们专注于两个主要问题：最佳预训练视觉编码器的方法，以及如何将视觉特征与 LLM 的内部空间有效结合起来。

图像编码器的预训练：多数多模态大型语言模型（MLLMs）使用 CLIP 预训练的图像编码器，也有研究探索使用 DINOv2 等仅视觉的自监督模型。研究显示，预训练图像编码器的选择对下游任务性能有显著影响，重点关注图像分辨率和预训练目标的重要性。在此过程中，研究人员使用了 2.9B 的 LLM 以充分挖掘大型图像编码器的潜力。

对比损失与重建损失：大规模图像-文本数据集训练的模型展现出强大的语义理解能力，这得益于数据的丰富性和视觉编码器的语义知识。然而，CLIP 风格的模型在密集预测任务上表现不佳，因此研究者考虑使用重建损失来提升图像理解的详细程度。

编码器课程的影响：研究发现，图像分辨率的提升对性能影响最大，其次是模型大小和训练数据组成。提高图像分辨率、增加模型参数和引入合成字幕数据集均能带来性能的小幅提升。

模型类型的选择：对比方法通常优于重建方法，特别是 ViT-L 编码器在性能上小幅超越同等尺寸的 AIM。

2. 预训练数据消融

在追求高性能模型的训练过程中，获取大量且与任务相关的数据是至关重要的。通常，模型的训练被分为两个关键阶段：预训练和指令调优。

预训练阶段涉及使用广泛的网络数据，旨在为模型提供一个全面的学习基础。随后的指令调优阶段则利用针对特定任务精心挑选和策划的数据，以进一步提升模型在该任务上的表现。

而研究人员则集中讨论预训练阶段，并详细阐释他们在数据选择上的策略和考量。

3. 最终模型与训练方法

研究人员选用了 378×378 像素分辨率的 ViT-H 模型，并在 DFN-5B 数据集上以 CLIP 目标进行预训练。

研究显示视觉标记的数量至关重要，因此他们采用了包含 144 个标记的连接器，选择了 C-Abstractor 作为连接器架构。

为了保持模型在零样本和少样本场景下的性能，研究人员使用了 45% 的交错图像-文本、45% 的图像-文本对和 10% 纯文本的数据组合。

他们也将大型语言模型（LLM）的参数规模扩展至 3B、7B 和 30B，并在相同文本数据集上进行训练。利用预训练的LLM和视觉编码器初始化 MM1，并在混合数据上进行了 200 万步的多模态预训练。

所有模型都在 AXLearn 框架下，以不冻结状态、4096 的序列长度、每序列最多 16 张图像、378×378 分辨率和 512 序列的批次大小进行训练。

鉴于在这样规模下进行精确的超参数搜索是不现实的。研究人员依据 LLM 的扩展规律，在小规模上进行了学习率的网格搜索，并确定了最佳学习率，随后将其应用于更大规模的模型中。

4. 监督微调

研究人员还阐述了基于预训练模型所进行的监督微调（SFT）实验细节。

它们遵循了 LLaVA-1.5 和 LLaVA-NeXT 的方法，并从一系列多样化的数据集中收集了大约 100 万个 SFT 示例，包括：

由 GPT-4 和 GPT-4V 生成的指令-响应对，LLaVA-Conv 和 LLaVA-Complex 用于对话和复杂推理，以及 ShareGPT-4V 用于详细图像描述。

针对学术任务的视频-语言（VL）数据集，涵盖了自然图像的 VQAv2、GQA、OKVQA、A-OKVQA 和 COCO Captions；文本丰富的图像数据集 OCRVQA 和 TextCaps；以及文档和图表理解的 DVQA、ChartQA、AI2D、DocVQA、InfoVQA 和 Synthdog-En。

此外，研究人员使用了类似于ShareGPT 的内部数据集，以保持模型对仅文本指令的遵循能力。

5. 论文结论

研究团队致力于探索构建高效能的多模态大型语言模型（MLLMs）的策略。通过精心设计的消融实验，研究人员对建模和数据选择进行深入分析，从而归纳出一系列关键的经验教训。

这些经验成功培养出一个预训练模型，在各种少样本评估中取得了业界领先的成绩。经过监督微调（SFT）的过程，这一模型系列在多个基准测试中展现出卓越的性能，不仅能够处理多图像推理任务，还能适应少样本提示的挑战。

更多研究细节，请查阅论文地址：https://arxiv.org/pdf/2403.09611.pdf

另外，据彭博社报道，苹果在今年早些时候还悄然收购了加拿大 AI 初创公司 DarwinAI。而该公司掌握的核心技术之一是利用 AI 来理解深度神经网络算法，并据此定制生成一系列经过高度优化、满足特定需求的神经网络。

报道还指出，这项技术对苹果公司来说可能极具战略价值，因为它完美契合苹果致力于在设备上直接运行 AI 功能的长远规划，而非单纯依赖云端计算。

无论是发表学术论文，还是战略性收购，这一连串举措都清晰表明了苹果即将在 AI 领域大展拳脚。

如今距离 WWDC24 仅剩不到三个月的时间，现在，让我们备好爆米花，屏息以待，准备迎接库克所描述的“开辟新天地”。

本文来自微信公众号：APPSO （ID：appsolution），作者：莫崇宇

声明：该内容为作者独立观点，不代表新零售资讯观点或立场，文章为网友投稿上传，版权归原作者所有，未经允许不得转载。新零售资讯站仅提供信息存储服务，如发现文章、图片等侵权行为，侵权责任由作者本人承担。如对本稿件有异议或投诉，请联系：wuchangxu@youzan.com

Like (0)

古茗、茶百道、书亦烧仙草被曝光隔夜食材频繁使用

Previous 2024年3月15日

吃到生肉卧底调查夸父炸串店后发现惊人内幕

Next 2024年3月16日

水温80度：AI行业真假繁荣的临界点

我们从来没拥有过这么成功的AI主导的产品。

（这种分析统计并不那么准，但大致数量级是差不多的）

这两个产品碰巧可以用来比较有两个原因：

一个是它们在本质上是一种东西，只不过一个更通用，一个更垂直。

蓝海的海峡

未来成功的AI产品是什么样，大致形态已经比较清楚了，从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时“罢工”，全网打工人都慌了

美西时间午夜12点开始，陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载，忽然无法正常工作了。

因为发现AI用久了，导致现在“离了ChatGPT，大脑根本无法运转”。”

等等，又不是只有一个聊天机器人，难道地球离了ChatGPT就不转了。

大模型连崩原因猜想，谷歌躺赢流量激增6成

GPT归位，人们的工作终于又恢复了秩序。

未来科技 2024年6月5日
ChatGPT宕机8小时，谷歌Gemini搜索量激增60%

ChatGPT一天宕机两次

谷歌Gemini搜索量激增近60%

ChatGPT在全球拥有约1.8亿活跃用户，已成为部分人群工作流程的关键部分。

过去24小时内提交的关于OpenAI宕机的问题报告

图片来源：Downdetector

ChatGPT系统崩溃后，有网友在社交媒体X上发帖警告道：“ChatGPT最近发生的2.5小时全球中断，为我们所有依赖AI工具来支持业务的人敲响了警钟。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时大崩溃，AI集体罢工让全网都慌了

接着OpenAI也在官网更新了恢复服务公告，表示“我们经历了一次重大故障，影响了所有ChatGPT用户的所有计划。Generator调查显示，在ChatGPT首次故障后的四小时内，谷歌AI聊天机器人Gemini搜索量激增60%，达到327058次。

而且研究团队表示，“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关，显示出用户把Gemini视为ChatGPT的直接替代选项。

未来科技 2024年6月5日
深度对话苹果iPad团队：玻璃的传承与演变

iPad最为原始的外观专利

没错，这就是iPad最初被设想的样子：全面屏，圆角矩形，纤薄，就像一片掌心里的玻璃。

2010年发布的初代iPad

好在乔布斯的遗志，并未被iPad团队遗忘。

初代iPad宣传片画面

乔布斯赞同这一想法，于是快速将资源投入平板电脑项目，意欲打造一款与众不同的「上网本」，这就是iPad早年的产品定义。

iPad进化的底色

苹果发布会留下过很多「名场面」，初代iPad发布会的末尾就是一例。

未来科技 2024年6月5日
底层逻辑未通，影视业的AI革命正在褪色…

GPT、Sora均为革命性产品，引发了舆论风暴，但它在上个月发布的“多模态语音对谈”Sky语音，却由于声音太像电影明星斯嘉丽·约翰逊，被正主强烈警告，被迫下架。

华尔街日报也在唱衰，认为“AI工具创新步伐正在放缓，实用性有限，运行成本过高”：

首先，互联网上已经没有更多额外的数据供人工智能模型收集、训练。

03、

如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向，那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

但分歧点正在于此，电影公司希望通过使用AI技术来降低成本，但又不希望自己的内容被AI公司所窃取。

未来科技 2024年6月5日
KAN会引起大模型的范式转变吗？

“先变后加”代替“先加后变”的设计，使得KAN的每一个连接都相当于一个“小型网络”，能实现更强的表达能力。

KAN的主要贡献在于，在当前深度学习的背景下重新审视K氏表示定理，将上述创新网络泛化到任意宽度和深度，并以科学发现为目标进行了一系列实验，展示了其作为“AI+科学”基础模型的潜在作用。

KAN与MLP的对照表：

KAN使神经元之间的非线性转变更加细粒度和多样化。

未来科技 2024年6月5日
这个国家，也开始发芯片补贴了

//mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
[4]中国安防协会：欧盟批准430亿欧元芯片补贴计划：2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
[6]潮电穿戴：印度半导体投资大跃进，一锤砸下1090亿，政府补贴一半.2024.3.5https。

未来科技 2024年6月5日
大模型的电力经济学：中国AI需要多少电力？

这些报告研究对象（数字中心、智能数据中心、加密货币等）、研究市场（全球、中国与美国等）、研究周期（多数截至2030年）各不相同，但基本逻辑大同小异：先根据芯片等硬件的算力与功率，计算出数据中心的用电量，再根据算力增长的预期、芯片能效提升的预期，以及数据中心能效（PUE）提升的预期，来推测未来一段时间内智能数据中心的用电量增长情况。

未来科技 2024年6月5日
你正和20万人一起接受AI面试

原本客户还担心候选人能否接受AI面试这件事，但在2020年以后，候选人进行AI面试的过程已经是完全自动化的，包括面试过程中AI面试官回答候选人的问题，AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

以近屿智能与客户合作的校验周期至少3年来看，方小雷认为AI应用不太可能一下子爆发，包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

未来科技 2024年6月4日

苹果首次披露多模态大模型，AI大招什么时候上iPhone

相关推荐