嘿,ChatGPT这下危险了

不光是GPT,各种“专家”这回也悬了

Gemini这次公布了三种尺寸:

Gemini。

在这次的发布和展示中,Google公布了Gemini最具先进性的几个特质:

遥遥领先(不信你看今天媒体的说法,都是“完爆/暴打GPT”)

从自然图像、音频和视频理解到数学推理,在被大型语言模型(LLM)研究和开发中广泛使用的。

这是一个比ChatGPT有趣更多的新家伙。先来看看他们的演示(不是聊天框,而是实时的视频和语音互动)

一张纸、一条弯曲的线、看到喙和爪子觉得是鸟,有了水波纹立刻就认出了鸭子(当然,你要非抬杠说是大鹅,也行……)。整个过程就像那个著名的超人梗“It’s a Bird… It’s a Plane… It’s Superman”——简直和人分辨视觉信息的感觉一模一样。

接下来它看出了颜色,而且清楚地知道“蓝鸭子”这玩意可不多见;当画面中沧桑的双手拿出了一个“小蓝鸭”,它也认出了材质,并知道这个“蓝鸭”可以浮在水上——而这是通过挤捏的动作确认的。

它非常清楚,这是一个立体的鸭子放在平面的世界地图上(它还知道蓝色是的海洋,黄绿色的是大陆)

最有趣的是这部分:三个杯中扣纸团,猜猜是哪个?(后面还有一个猜手中硬币的环节,啥都瞒不过)

它可以识别手势,无论你是在猜拳,还是模仿动物。

还可以识别视频中不断变换的物体,并归类说明。

甚至可以做编织刺绣爱好者的“设计指导”。

还记得这个么?小时候我最爱玩了,一下子被它整得没乐趣了!

可以看懂手绘乐器和与之关联的背景(难为它了,画得的确太糙了……),并随之变换不同音乐风格(后面的完整视频中,你可以听到)

还能够看懂视频中的视频。

它眼中的世界也许跟你一样

上面演示的,是Google刚刚发布的Gemini(本意为双子座,就是上面演示视频最后出现的那个星座)大模型——这是一款“天生多模态”的AI大模型。

官方称其为“Google 迄今为止规模最大、能力最强以及最灵活的AI模型”。

你大概在过去一年里,伴随着各种“大模型”,反复听到过“多模态”这个词:简而言之,如果一个AI和你的交流方式包括文字、语音、图像等,就是“多”;只有一种,就是“单”。

但这里有一个问题,我们在这一年接触到的大多数“多模态”,其实都是单一模态的不停切换:先在对话框里聊两句天,再来个语音识别转文字,最后整一张画给AI看,或者让AI整一张画给你看——是不是很熟悉的流程?

举个例子,你身边是不是有很多这样的同事:一下午只能做一件任务,剪了视频就不能做表格;做了表格就没法找客户;找了客户就没法剪视频……(除非是摸鱼,一次能摸好几种)这时候你老板通常会表扬他:倒霉孩子,真是一根筋!

但如果优秀如你,也许可以并行同时完成两到三项工作——Gemini就是AI中的你。在上面的演示视频中就可看出,既然号称“天生多模态”,它展现出的其实是一种“跨模态”的“天赋”。文字、语言、画面、声音……做到同时接受和表达,这就非常接近人类天然对于外部世界的理解和交互方式了。

不光是GPT,各种“专家”这回也悬了

Gemini这次公布了三种尺寸:

Gemini Ultra:规模最大且功能最强大的模型,适用于高度复杂的任务;

Gemini Pro:适用于各种任务的最佳模型;

Gemini Nano:端侧设备上最高效的模型。

以保障它能高效运行在从数据中心到移动设备的多平台上。

在这次的发布和展示中,Google公布了Gemini最具先进性的几个特质:

遥遥领先(不信你看今天媒体的说法,都是“完爆/暴打GPT”)

从自然图像、音频和视频理解到数学推理,在被大型语言模型(LLM)研究和开发中广泛使用的 32 项学术基准中,Gemini Ultra 的性能有 30 项都超过了目前最先进的水平。

首次超越人类(这回是真的……)

Gemini Ultra 的得分率为 90.0%,是第一个在 MMLU(大规模多任务语言理解)测试中超过人类专家的模型,MMLU 综合使用了数学、物理、历史、法律、医学和伦理等 57 个科目,用于测试世界知识和解决问题的能力。

真的认识字啦!

在图像基准测试中,Gemini Ultra 在不使用对象字符识别(OCR)系统来提取图像中的文本进行下一步处理的情况下,表现优于以前最好的模型。

目前,在 Bard 已经可以体验 Gemini 的 Pro 版本(暂时限英语),未来几个月将扩展不同的模态,并支持新的语言和地区;手机端,Pixel 8 Pro 是首款搭载 Gemini Nano 的智能手机,它可以支持录音应用中的“总结”等新功能,并在 Gboard 中推出“智能回复”功能;未来几个月,Gemini 也将出现在Google的搜索、广告、浏览器和智能办公助手当中。

大妈不是大妈,大爷还是大爷

大概是过去一年OpenAI占据的太多眼球(无论是技术、产品,还是人),有趣的是,这似乎暗合了Google当年推出Transformer架构时的论文题目Attention is all you need。一年之中,凡谈及AI,则言必称OpenAI和GPT,很多人似乎忘记了Google在AI方面雄厚的基础和持续进步。

看看这张Gemini之前Google的AI里程图:

如今面对Gemini,刚刚动荡平息的OpenAI又将如何应对呢?是传说中的Q*还是人们翘首期盼的GPT-5?

本文来自微信公众号:果壳 (ID:Guokr42),作者:卧虫,编辑:malt

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
(0)
上一篇 2023年12月7日
下一篇 2023年12月7日

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日