懂梗图做学术,这个AI对标ChatGPT+DALL-E3

当我们把相似的输入给到Mini-Gemini,它会怎么回答呢。

当然,Mini-Gemini对于多模态模型的传统技能图片理解也不在话下。

超会玩梗

又或者让Mini-Gemini理解梗图,通过其强大的OCR和推理能力,也可以准确指出笑点。

人人在线可玩

值得一提的是,Mini-Gemini的图像理解和生成能力已经出了Demo,可以在线跟自定义图像对话的那种。

刷爆多模态任务榜单,超强视觉语言模型Mini-Gemini来了。

效果堪称是开源社区版的GPT-4+DALL-E3王炸组合。

不仅如此,这款由港中文终身教授贾佳亚团队提出的多模态模型,一经发布便登上了PaperWithCode热榜。

Demo地址: http://103.170.5.190:7860/

论文地址:https://arxiv.org/pdf/2403.18814.pdf

具体来说,Mini-Gemini提供了2B小杯到34B的超大杯的不同选择。

凭借超强的图文理解力,Mini-Gemini在多个指标上,直接媲美Gemini Pro,GPT-4V。

目前,研究团队将Mini-Gemini的代码、模型、数据全部开源。

更有意思的是,超会玩梗的Mini-Gemini线上Demo已经发布,人人皆可上手试玩。

Mini-Gemini Demo放出后受到广大网友关注,一番“尝鲜”后,有人认为:Mini-Gemini跟商业模型差不了多少!

为何这么说?

图片理解天花板

当前,绝大多数多模态模型仅支持低分辨率图像输入和文字输出。

而在实际场景中,许多任务都需要对高清图像进行解析,并用图像的形式进行展现。

举个例子,Mini-Gemini能够看懂面包九宫格图片教程,并进行手把手教学。

拍一张苹果店Mac电脑信息图,Mini-Gemini能够将两种尺寸的Mac不同参数进行对比。

有网友看过后表示,“妈妈再也不用担心我的生活了”。

更重要的是,Mini-Gemini在保留超强的图像理解和推理能力的同时,还解锁了图像的生成能力,就如同ChatGPT和生成模型的结合。

下面,让我们通过几个例子来更直观地感受这种能力:

推理再生成,更精准了

还记得谷歌Gemini的官方演示视频么?

当用户给出两个毛线团并问出能用它们做什么时,Gemini可以识别出图片内容并给出相应的建议。

当我们把相似的输入给到Mini-Gemini,它会怎么回答呢?

可以发现,Mini-Gemini也可以识别出图片中的元素,并且合理地建议,同时生成了一只对应的毛线小熊。

通过一些抽象的多模态指令来让模型给出推理,并生成合适的图片,这个操作就很像是ChatGPT和DALL-E3的联动了!

接下来让Mini-Gemini做自己最擅长的推理和图片理解,看看它表现。

比如,理解图片中的矛盾点并举一反三。

输入冰川中的仙人掌,它会解释其中的矛盾并生成一张热带雨林中北极熊的图片:

图片呈现了仙人掌的典型栖息地与冰的存在之间的视觉矛盾,因为在沙漠环境中自然不会出现冰。

Mini-Gemini正是理解了这种矛盾点,才生成了一张北极熊出现在热带雨林的图片。

这种并置创造了一个引人注目且超现实的视觉效果,挑战观众的期待,并可能引发人们对气候变化、环境适应或不同生态系统融合的思考。

同时,正如ChatGPT+DALL-E3的梦幻结合一样,Mini-Gemini的“推理生成”功能还可以在多轮对话中通过简单指令生成连环小故事。

比方说,让它根据用户输入讲一个贵族小老鼠的故事。

Mini-Gemini会根据前文的文字生成结果和用户输入进行推理,在保持一致性的情况下对图片进行修改,使其更符合用户的要求。

当然,Mini-Gemini对于多模态模型的传统技能图片理解也不在话下。

比方让模型理解输入曲线图的数学意义(高斯分布),并让它使用代码复现这张图。

通过运行生成的代码,模型可以高质量地还原曲线图,节省了复现的时间。

超会玩梗

又或者让Mini-Gemini理解梗图,通过其强大的OCR和推理能力,也可以准确指出笑点。

一张将麦当劳P成GYM表情包,外加对话图,搞笑点在哪?

Mini-Gemini可以准确理解图中讽刺含义,并给出了正确的解释。

还有这张“当某媒体说AI将接管世界,实际上我的神经网络连猫未能识别”的梗图。

Mini-Gemini也是可以理解,是在说AI犯错的例子,并且与公众接受到的预期并不一样。

图中细节的幽默之处,它都能get得明明白白。

高清复杂的多图表理解和归纳也是小菜一碟,Mini-Gemini直接秒变打工人效率提升的超级外挂。

英文图表太复杂,读起来太费脑子?它直观地用中文整理出了内容——“比较不同笼养系统中母鸡所承受的平均疼痛天数”。

技术细节

如上演示中,Mini-Gemini是怎样做到这种惊艳的效果呢?

论文地址:https://arxiv.org/pdf/2403.18814.pdf

Github地址:https://github.com/dvlab-research/MiniGemini

模型地址:https://huggingface.co/collections/YanweiLi/mini-gemini-6603c50b9b43d044171d0854

数据地址:https://huggingface.co/collections/YanweiLi/mini-gemini-data-660463ea895a01d8f367624e

大道至简,Mini-Gemini的整体思路并不复杂。其中的Gemini(双子座)表达的是使用视觉双分支的信息挖掘(Miraing-Info in Gemini)解决高清图像理解问题。

而其中的核心在于三点:

(1)用于高清图像的双编码器机制;

(2)更高质量的数据;

(3)训练阶段结合生成模型数据拓展。

详细来说,Mini-Gemini将传统所使用的ViT当作低分辨率的Query,而使用卷积网络(ConvNet)将高分辨率的图像编码成Key和Value。

使用Transformer中常用的Attention机制,来挖掘每个低分辨率Query所对应的高分辨率区域。

从而在保持最终视觉Token数目不变的情况下去提升对高清图像的响应,保证了在大语言模型(LLM)中对于高清图像的高效编码。

值得一提的是,由于高分辨率分支卷积网络的使用,可以根据需要对图像所需的分辨率自适应调整,能够遇强则强。

对于图像的生成部分,Mini-Gemini借助了SDXL,使用LLM推理后所生成的文本链接两个模型,类似于DALL-E3的流程。

而对于数据这个“万金油”,Mini-Gemini进一步收集并优化了训练数据的质量,并加入了跟生成模型结合的文本数据进行训练。

在仅使用2-3M数据的情况下,实现了对图像理解、推理、和生成的统一流程。

Mini-Gemini在各种Zero-shot的榜单上毫不逊色于各种大厂用大量数据训练出来的模型,可谓是“平、靓、正” !

媲美Gemini Pro和GPT-4V

可以看出,Mini-Gemini提供了多种普通和高清版本的模型,并且覆盖了2B的小杯到34B的超大杯。

各个版本都取得了相似参数量下领先的效果,在许多指标上甚至超越Gemini Pro和GPT-4V。

人人在线可玩

值得一提的是,Mini-Gemini的图像理解和生成能力已经出了Demo,可以在线跟自定义图像对话的那种。

操作也极其简单,直接跟输入图像或文字进行对话即可,欢迎来撩。

Demo地址:http://103.170.5.190:7860/

参考资料:

https://arxiv.org/pdf/2403.18814.pdf

https://github.com/dvlab-research/MiniGemini

https://huggingface.co/collections/YanweiLi/mini-gemini-6603c50b9b43d044171d0854

https://huggingface.co/collections/YanweiLi/mini-gemini-data-660463ea895a01d8f367624e

http://103.170.5.190:7860/

本文来自微信公众号:新智元 (ID:AI_era),作者:新智元

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
Like (0)
Previous 2024年4月15日 16:03
Next 2024年4月15日

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日