马斯克发布Grok-1.5V，能干得过GPT-4和Claude么？

2024年4月13日 16:28 • 未来科技

xAI展示了Grok-1.5V的7个示例：

一、看图表草图，写代码

用户拿出一张手绘的流程图，问Grok能否将其转换成Python代码。

Grok随即输出以纯文本格式显示的CSV：

六、帮忙清理甲板上的烂木头

Grok也能用于解决生活日常问题。”

七、解决代码问题

让Grok写Python代码解决上面的问题，Grok的输出如下：

xAI团队认为，推进多模态理解和生成能力是构建能够理解宇宙的有益AGI的重要步骤。

4月13日消息，马斯克的大模型创企xAI推出了其首款多模态大模型Grok-1.5V。

这是OpenAI的大语言模型劲敌之一。如今，除了文本功能外，Grok现在还可以处理各种各样的视觉信息，包括文档、图表、屏幕截图、照片，并能进行多学科推理。

xAI重点展示了Grok-1.5V的7个示例，包括：将手绘图表转换成Python代码、看食品标签计算卡路里、根据孩子的绘画讲个睡前故事、解释梗图、将表格转换成csv格式、为生活日常问题答疑解惑、解决代码问题。

至此，xAI正式加入前沿多模态大模型的竞赛。

与GPT-4V、Claude 3 Sonnet、Claude 3 Opus、Gemini Pro 1.5相比，Grok-1.5V的表现不相上下，在一些基准测试中略胜一筹。

尤其是在RealWorld，在用于衡量真实世界空间理解能力的QA基准测试中，Grok明显优于同类模型。xAI团队对Grok理解物理世界的能力感到特别兴奋。对于上面的数据集，该团队在没有思维链提示的情况下在零样本设置中评估Grok。

xAI宣布向社区发布RealWorldQA基准测试，计划随着其多模态模型的改进而扩展它。RealWorldQA在CC BY-ND 4.0下发布，数据集大小为677MB。

初版RealWorldQA由700多张图片组成，每张图片都有一个问题和易于验证的答案。该数据集包括从汽车上拍摄的匿名图像，以及其他真实世界的图像。xAI放出了4个示例，其中有两张图都是由汽车前置摄像头拍摄的。‍‍

数据集地址：https://creativecommons.org/licenses/by-nd/4.0/?ref=chooser-v1

自2023年11月推出聊天机器人Grok以来，马斯克的xAI一直在追赶OpenAI的步伐。在刚刚过去的1个月内，xAI相继宣布将Grok-1开源、推出128k长文本Grok-1.5、推出Grok-1.5V多模态大模型三项重要进展。

Grok-1.5V将很快提供给其早期测试者和现有的Grok用户。

xAI展示了Grok-1.5V的7个示例：

一、看图表草图，写代码

用户拿出一张手绘的流程图，问Grok能否将其转换成Python代码。

Grok回复：

“当然！您提供的流程图描述了一个简单的猜谜游戏，其中计算机生成一个随机数，用户必须猜测它。下面是表示流程图中逻辑的Python代码：”

“这段代码将运行流程图中描述的猜谜游戏。用户将被提示输入他们的猜测，直到他们猜对了数字。”

二、计算卡路里

用户问：“5片这个有多少卡路里？”

Grok回复：

“如果一份是3片，含有60卡路里，那么5片就含有大约100卡路里。这是通过首先确定每片的卡路里来计算的：60卡路里/3片=每片20卡路里。然后，将每片的卡路里乘以片数：每片20卡路里*5片= 100卡路里。”

三、根据绘画讲一个睡前故事

根据上图，Grok讲出这样一个睡前故事：

“很久很久以前，在一片充满冒险和奇迹的土地上，有一个勇敢的小男孩，名叫蒂米。蒂米和他的家人住在一个舒适的小房子里，他最喜欢的就是探索周围的世界。

在一个阳光明媚的日子，蒂米决定去附近的森林探险。他带上了他最喜欢的零食、一个指南针，还有他那本可靠的笔记本，用来画下他将要看到的所有令人兴奋的事情。

当蒂米向森林深处冒险时，他发现了一条在阳光下闪闪发光的神奇河流。这条河是如此迷人，以至于蒂米决定造一艘小纸船，作为对森林精灵的特殊信息，顺流而下。

蒂米小心翼翼地折起他的纸船，在上面画了一个笑脸，给森林精灵带来欢乐。然后，他把船放在河上，看着它漂走，带着他的友谊和对自然的爱的信息。

当太阳开始下山时，蒂米知道是时候回家了。他很感激在森林里度过的神奇的一天，他知道他会永远把这次冒险的记忆记在心里。

回到家，蒂米把他的故事告诉了他的家人，他们很高兴听到他在森林里神奇的一天。他们都认为提米的勇敢和善良的精神是一个真正的鼓舞，他们知道他将继续有更多的奇妙的冒险在未来。

于是，带着一颗充满爱的心和一个充满梦想的头脑，蒂米慢慢地睡着了，渴望发现在他想象的世界里有什么新的冒险在等着他。”

四、解释一个梗图

给Grok上面这张梗图，它也能“秒懂”：

“这张图片是对初创公司和大公司的幽默比较。在左边标有‘初创公司’的地方，有一群人在一起挖洞。他们都在积极参与，这个洞已经相当深了。

在右边标有‘大公司’的地方，有一群人站在一个洞周围。然而，与创业方不同的是，实际上只有一个人在挖洞，而其他人则在观看或从事其他活动。

这幅图中的幽默来自于对初创公司和大公司之间差异的夸大。在创业公司，通常有一种紧迫感，每个人都被期望直接为手头的任务做出贡献。相比之下，大公司通常被描述为有更多的官僚主义，并且每个项目中所有团队成员的直接参与较少。”

五、将表格转换成csv

用户可以要求Grok将这张表格转换成csv。

Grok随即输出以纯文本格式显示的CSV：

六、帮忙清理甲板上的烂木头

Grok也能用于解决生活日常问题。当用户发送一张照片，询问：“这些洞出现在我甲板上的螺丝周围。它烂了吗？我应该换电路板吗？”

Grok回复说：

“看来你甲板上的木头已经开始腐烂了。螺丝周围有洞表明了这一点，这是木头腐烂的常见迹象。

为确保甲板的安全和使用寿命，建议更换受影响的甲板。这将有助于防止甲板进一步受损，并保持其结构完整性。

如果您不确定如何继续更换板，咨询专业的甲板建造商或承包商可能会有所帮助。他们将能够评估损坏的程度，并为您的甲板提供最佳行动方案的专家建议。”

七、解决代码问题

让Grok写Python代码解决上面的问题，Grok的输出如下：

xAI团队认为，推进多模态理解和生成能力是构建能够理解宇宙的有益AGI的重要步骤。在接下来的几个月里，xAI预计将在图像、音频、视频等各种模态上对这两种功能进行重大改进。

同时，xAI还贴出招聘链接，邀请更多设计师、工程师、产品、数据、Infra、AI导师加入。

值得一提的是，LLaVA一作、美国威斯康星大学麦迪逊分校博士柳昊天今日宣布加入xAI团队：“我很高兴和一个小而专注的团队一起工作，看看我们能有多快！这仅仅是个开始。”‍

LLaVA是第一个在图像理解和推理方面具有类似GPT-4V级别能力的开源大模型。结合AI Agent，柳昊天联合清华大学的刘世隆等人去年11月又提出了LLaVA-Plus，使用插件（视觉工具）提升多模态大语言模型的视觉能力。

LLaVA-Plus一作、清华大学计算机系博士生刘世隆将出席下周五（4月19日）在北京举行的2024中国生成式AI大会并分享观点。

本文来自微信公众号：智东西（ID：zhidxcom），作者：ZeR0

声明：该内容为作者独立观点，不代表新零售资讯观点或立场，文章为网友投稿上传，版权归原作者所有，未经允许不得转载。新零售资讯站仅提供信息存储服务，如发现文章、图片等侵权行为，侵权责任由作者本人承担。如对本稿件有异议或投诉，请联系：wuchangxu@youzan.com

Like (0)

“ChatGPT版iPhone”，上市即翻车

Previous 2024年4月13日

喜茶快闪店“开进”消博会，现场智能化制茶引关注

Next 2024年4月13日

水温80度：AI行业真假繁荣的临界点

我们从来没拥有过这么成功的AI主导的产品。

（这种分析统计并不那么准，但大致数量级是差不多的）

这两个产品碰巧可以用来比较有两个原因：

一个是它们在本质上是一种东西，只不过一个更通用，一个更垂直。

蓝海的海峡

未来成功的AI产品是什么样，大致形态已经比较清楚了，从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时“罢工”，全网打工人都慌了

美西时间午夜12点开始，陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载，忽然无法正常工作了。

因为发现AI用久了，导致现在“离了ChatGPT，大脑根本无法运转”。”

等等，又不是只有一个聊天机器人，难道地球离了ChatGPT就不转了。

大模型连崩原因猜想，谷歌躺赢流量激增6成

GPT归位，人们的工作终于又恢复了秩序。

未来科技 2024年6月5日
ChatGPT宕机8小时，谷歌Gemini搜索量激增60%

ChatGPT一天宕机两次

谷歌Gemini搜索量激增近60%

ChatGPT在全球拥有约1.8亿活跃用户，已成为部分人群工作流程的关键部分。

过去24小时内提交的关于OpenAI宕机的问题报告

图片来源：Downdetector

ChatGPT系统崩溃后，有网友在社交媒体X上发帖警告道：“ChatGPT最近发生的2.5小时全球中断，为我们所有依赖AI工具来支持业务的人敲响了警钟。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时大崩溃，AI集体罢工让全网都慌了

接着OpenAI也在官网更新了恢复服务公告，表示“我们经历了一次重大故障，影响了所有ChatGPT用户的所有计划。Generator调查显示，在ChatGPT首次故障后的四小时内，谷歌AI聊天机器人Gemini搜索量激增60%，达到327058次。

而且研究团队表示，“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关，显示出用户把Gemini视为ChatGPT的直接替代选项。

未来科技 2024年6月5日
深度对话苹果iPad团队：玻璃的传承与演变

iPad最为原始的外观专利

没错，这就是iPad最初被设想的样子：全面屏，圆角矩形，纤薄，就像一片掌心里的玻璃。

2010年发布的初代iPad

好在乔布斯的遗志，并未被iPad团队遗忘。

初代iPad宣传片画面

乔布斯赞同这一想法，于是快速将资源投入平板电脑项目，意欲打造一款与众不同的「上网本」，这就是iPad早年的产品定义。

iPad进化的底色

苹果发布会留下过很多「名场面」，初代iPad发布会的末尾就是一例。

未来科技 2024年6月5日
底层逻辑未通，影视业的AI革命正在褪色…

GPT、Sora均为革命性产品，引发了舆论风暴，但它在上个月发布的“多模态语音对谈”Sky语音，却由于声音太像电影明星斯嘉丽·约翰逊，被正主强烈警告，被迫下架。

华尔街日报也在唱衰，认为“AI工具创新步伐正在放缓，实用性有限，运行成本过高”：

首先，互联网上已经没有更多额外的数据供人工智能模型收集、训练。

03、

如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向，那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

但分歧点正在于此，电影公司希望通过使用AI技术来降低成本，但又不希望自己的内容被AI公司所窃取。

未来科技 2024年6月5日
KAN会引起大模型的范式转变吗？

“先变后加”代替“先加后变”的设计，使得KAN的每一个连接都相当于一个“小型网络”，能实现更强的表达能力。

KAN的主要贡献在于，在当前深度学习的背景下重新审视K氏表示定理，将上述创新网络泛化到任意宽度和深度，并以科学发现为目标进行了一系列实验，展示了其作为“AI+科学”基础模型的潜在作用。

KAN与MLP的对照表：

KAN使神经元之间的非线性转变更加细粒度和多样化。

未来科技 2024年6月5日
这个国家，也开始发芯片补贴了

//mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
[4]中国安防协会：欧盟批准430亿欧元芯片补贴计划：2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
[6]潮电穿戴：印度半导体投资大跃进，一锤砸下1090亿，政府补贴一半.2024.3.5https。

未来科技 2024年6月5日
大模型的电力经济学：中国AI需要多少电力？

这些报告研究对象（数字中心、智能数据中心、加密货币等）、研究市场（全球、中国与美国等）、研究周期（多数截至2030年）各不相同，但基本逻辑大同小异：先根据芯片等硬件的算力与功率，计算出数据中心的用电量，再根据算力增长的预期、芯片能效提升的预期，以及数据中心能效（PUE）提升的预期，来推测未来一段时间内智能数据中心的用电量增长情况。

未来科技 2024年6月5日
你正和20万人一起接受AI面试

原本客户还担心候选人能否接受AI面试这件事，但在2020年以后，候选人进行AI面试的过程已经是完全自动化的，包括面试过程中AI面试官回答候选人的问题，AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

以近屿智能与客户合作的校验周期至少3年来看，方小雷认为AI应用不太可能一下子爆发，包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

未来科技 2024年6月4日

马斯克发布Grok-1.5V，能干得过GPT-4和Claude么？

相关推荐