免费、SOTA、中文,微软卷出了新高度

LLaVA-1.6的研发团队成员Haotian Liu在X平台发文原文 
 
二、更适合中国人体质的GPT-4V
 
在奋力追平GPT-4V的同时,LLaVa-1.6也展现出强大的零样本中文能力。
 

图片来源:用户在X平台对LLaVA-1.6的试用截图
 
为了促进多模态大模型社区的发展,开发者们开源了LLaVa-1.6的全部代码、训练数据和模型。

出品 | 虎嗅科技组

作者 | 杜钰君

编辑 | 王一鹏

头图 | 摄图网

碾压谷歌的Gemini Pro和阿里的Qwen-VL-Plus,与GPT-4V正面硬刚,这个有着SOTA级别性能的多模态大模型真正做到了“人无我有,人有我优”。

 

继2023年4月的初级版本、2023年10月的LLaVA-1.5之后,2024年1月31日,微软研究院又联合威斯康星大学麦迪逊分校和哥伦比亚大学的研究者共同发布了多模态大模型LLaVa(Large Language and Vision Assistant)的1.6版本。与GPT-4V只提供API接口的闭源经营理念不同,LLaVA1.6的代码、模型与训练数据全开源,且在标准评测数据集上跑出了较为亮眼的成绩。

一、LLaVA1.6:卷上加卷

 

LLaVA是一种端到端训练的大型多模态模型,又被称为“大型语言和视觉助手”。LLaVa-1.6是微软LLaVa系列的第三个迭代版本。升级后的LLaVa-1.6可谓buff叠满:SOTA级别的性能,低训练花销,多模态的内容生成能力和再一次将开源大模型卷上了新高度。

根据LLaVa-1.6官网的标准评测数据集,该模型的表现超越了Qwen-VL-Plus、CogVLM和Yi-VL等一众模型,在大部分数据集上的表现都优于Gemini Pro,在Math-Vista、MMB-ENG等部分数据集上的表现甚至胜于GPT-4V,成为了开源模型中的“性能王者“。

 图片来源:LLaVA-1.6官网的标准评测数据

在不拘泥于单一模态的内容生成,具有Text-to-Text和Image-to-Text两种模式的同时,LLaVa-1.6的过人之处还在于更低的训练数据成本。LLaVA-1.6能用32个GPU在一天之内完成训练,仅需1.3M条训练数据,其计算和训练数据比其他模型小100到1000倍。

除了通过对话式AI生成文本外,LLaVA-1.6还可以识别图片信息并转化成文字答案。升级后的LLaVa-1.6对输入图像的分辨率提升到原来的4倍以上,使得模型能够抓住图片的更多细节。目前支持的图像分辨率有672×672、336×1344以及1344×336三种。

 

LLaVA模型架构基于大量的图像-文本配对的数据集,将预训练的CLIP视觉编码器与大型语言模型(Vicuna)通过映射矩阵相连接,来实现视觉和语言特征的匹配。根据该模型的研发团队成员Haotian Liu在X平台的介绍,此增强版本建立在其前身的简约设计和数据效率基础上,并通过改进视觉指令数据集和SGLang,提升了“推理、OCR等方面的性能”,意味着人类向AGI(通用人工智能)探索的道路上又迈进了一步。

LLaVA-1.6的研发团队成员Haotian Liu在X平台发文原文 

 

二、更适合中国人体质的GPT-4V

 

在奋力追平GPT-4V的同时,LLaVa-1.6也展现出强大的零样本中文能力。

 

LLaVa-1.6不需要额外训练便具备杰出的中文理解和运用能力,其在中文多模态场景下表现优异,使得用户不必学习复杂的“prompt”便可以轻松上手,这对于执行“免费(限制文本长度、使用次数等)+付费会员”制的文心一言们而言无疑提出了新的挑战。

 

笔者在对LLaVa-1.6模型的demo进行尝试时发现,LLaVa-1.6对古诗词等具有中文语言特色的文本内容理解也较为到位,且能给出中上水平的答案。因而对于有图生文或文生文需求的用户而言,LLaVa-1.6模型不失为更适合中国人体质的GPT-4V。

图片来源:笔者在文心一格平台的使用截图

更强的视觉对话能力使得LLaVa-1.6的智能服务可以覆盖更多元的场景、具有更强的常识和逻辑推理能力。

 

 

图片来源:用户在X平台对LLaVA-1.6的试用截图

在上图的应用场景中,用户发给LLaVA-1.6一张机票,询问与之相关的接机和日程安排。LLaVA-1.6不仅准确的估计了驾驶时间,还考虑到了可能堵车的情况,颇具一个“智能管家”的自我修养。

 

图片来源:用户在X平台对LLaVA-1.6的试用截图

 

为了促进多模态大模型社区的发展,开发者们开源了LLaVa-1.6的全部代码、训练数据和模型。这无疑有益于人工智能开发的透明度和协作。在较小训练样本和开源的前提下,如果可以基于本地数据训练专业模型,推动解决当前大模型基于云的产品的责任和隐私问题。

不难发现,轻量化的训练数据是LLaVa-1.6与其他多模态大模型不同的关键一点。一直以来,成本的高企便是横亘在大模型训练面前的一大难题。随着大模型赛道越来越卷,研发者们开始将关注点从性能转向成本,在关注大规模参数量的同时着力降低模型的运算和推理成本,实现模型压缩化和计算高效化。

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
(0)
上一篇 2024年2月9日
下一篇 2024年2月10日

相关推荐

  • 狂砸670亿美元,日本要重振芯片产业

    为了夺回昔日半导体50.3%市占率的领先地位,且不被海外竞争者“卡脖子”,日本“痛下决心”狂砸670亿美元吸引全球先进半导体公司来日本建厂,并试图量产2纳米高端芯片,以重新领跑全球。

    日本在自20世纪80年代以来在全球半导体领域的领先地位被超越后“痛定思痛”,决定将截至2030年的半导体产业的复兴分为三个阶段:(1)加快半导体生产的基础设施建设。

    未来科技 33分钟前
  • 每秒500token的AI芯片让人惊叹,但它真的靠谱吗?

    根据Groq此前发布的论文,它的核心技术其实是一个名叫TSP的微架构设计,全称叫做张量流处理器,Tensor。

    对比可以看到,Groq的回答比较简单,无法挖掘书中所代表的更深的复杂的意味。

    快速来自上面提到的TSP的优化,除此之外,Groq上面的模型也是他们自己微调过的,它并没有公开微调过程,所以对于模型本身的看法来源于我的推测:它上面可以选用的所有的模型后面都有“小尾巴”,比如Llama。

    未来科技 34分钟前
  • 聊一聊我眼里的科技颠覆感

    如果说从电脑到互联网到智能手机,一直是在这个世界提升粘度频次的话,ChatGPT则是创造另外一个世界的重要支柱,且没有之一。

    就当下这个时间点而言,我依然像90年代末看到互联网一样,隐隐觉得这可能是一个很剧烈的变革,但还是有些懵懵懂懂模模糊糊。

    这个例子的意思就是,人类并没有掌握所有的规律,人工智能作为我们的创造物,通过机器学习大量的也是我们的创造物,能发现新的规律以至于可以重现虚拟的真实世界。

    未来科技 1小时前
  • “已经有三个人跟我说要做中国版Sora”

    而针对OpenAI宣称sora是“世界模拟器”,图灵奖得主、Meta首席AI科学家杨立昆(YannLeCun)认为,根据提示词生成的大部分逼真视频,离“AI理解物理世界”还差得远,刷屏的视频仍有很多bug,生成视频的过程与基于世界模型的因果预测完全不同。

    去年此时,很多人问,为什么中国没有产生ChatGPT,到了今年问题又变成了,为什么中国没有产生sora,在天才科学家史蒂芬·沃尔弗拉姆那本《这就是ChatGPT》的导读序中,作者建议我们把问题换成,“为什么全世界只有OpenAI能做出ChatGPT”。

    未来科技 1小时前
  • 一年一万篇论文撤稿,期刊编辑守不住学术大门了?

    2023年最大比例的撤稿来自于出版商Wiley旗下的Hindawi系列期刊,在一年内撤稿超过了8000篇,该公司在声明中表示如此规模的撤稿是出于对“同行评审过程被系统性操纵的担忧”,尤其是大量负责特刊的客座编辑出现了不可控的风险,最终Wiley表示将彻底放弃Hindawi品牌。

    图源:Nature

    很多长期关注学术不端的专家对撤稿论文超过1万成为大新闻表示乐见其成,因为根据他们的观察,在全世界论文工厂的生意非常火爆,这1万篇仅仅是其中运气不太好的那一小部分。

    未来科技 1小时前
  • 存储,战火重燃

    一、冯·诺依曼的“陷阱”

    韩国人之所以能等来又一次机会,很大程度上得感谢“计算机之父”冯·诺依曼。

    1945年,全球第一台计算机ENIAC问世在即,冯·诺依曼联合同事发表论文,阐述了一种全新的计算机体系架构。其中最大的突破在于“存算分离”——这是逻辑运算单元第一次从存储单元中被剥离出来。

    如果把计算机内部想象成后厨,那么存储器就是仓库管理员,而逻辑芯片就是主厨。

    未来科技 2小时前
  • GPT-4劲敌,谷歌进入高能+高产模式

     

    图源:Gemini 1.5 Pro官方测试数据

    Gemini 1.5 Pro大大超过Gemini 1.0 Pro,在27项基准(共31项)上表现更好,特别是在数学、科学和推理(+28.9%),多语言(+22.3%),视频理解(+11.2%)和代码(+8.9%)等领域。
     

    图源:Gemini 1.5 Pro官方演示样本

     
    Gemini 1.5 Pro在处理长达超过100,000行的代码时,还具备极强的问题解决能力。

    未来科技 3小时前
  • Vision Pro的两个难题

    如果没有新的硬件变革,应该也没有什么纯内容服务平台的大机会了吧

    我的回复是这样的:

    这么多年的内容生态,内容本身变化很小的,基本还是图文音视频,这都是前互联网时代的东西。

    IMAX其实是一项1967年就问世的技术,但相当长一段时间里,也一直困在恶性循环中:院线不愿意花钱做IMAX影院,电影生产商因为IMAX影院少而不愿意费力气拍IMAX片子。

    由此我们可以看到,一个具有引爆点力量的内容非常重要,它能彰显出巨大的财富预期,以推动产业走出那个恶性循环。

    未来科技 3小时前
  • 299卖Sora内测账号?互联网的创造力全拿来骗钱了

    总而言之,虽然 Sora 的官方应用啥时候公测还没个准信儿,但这帮卖课、搞诈骗的,显然已经“遥遥领先”了。

    也难怪,最后整得。

    卖 GPT 课的时候,卖课哥还能给自己辩驳两下子,说这是知识付费,愿者买单。

    但 Sora 现在连产品都还不知道在哪儿,国内几乎也没有谁真正上手试用过,有些人还敢漫天要价,就真的是黑心的萝卜,坏透了。

    说实在的,这两年生成式。

    未来科技 4小时前
  • 赶超英伟达?都2024年了,居然还炒作SRAM

    SRAM的优点很明显,快,非常快,不仅远远超过NAND,更是超过DRAM的速度,所以SRAM的特点就是快。

    在PC,HPC上的CPU里面,SRAM面积还不小哦,普遍占到一半,但是在手机这种对功耗要求比较高的CPU里,SRAM就比较小了。

    实际情况就是大容量的SRAM要上,毕竟这个直接提升性能比较明显,但是HBM也绝对不是它的对立面啊。

    未来科技 6小时前