一个GPT的幽灵在Gemini上空徘徊

其实Google今天围绕Gemini所做的一切,某种程度上能让我们中国的大语言模型开发者心有共鸣:大家的头顶上都徘徊着GPT的幽灵,这就让大家都试图通过某些努力,证明自己在某些方面比GPT做得更好。从Google这次Gemini模型的发布,我看到了Google与一众我们熟悉的中国大语言模型开发者同样的境遇和努力:那种隐忍、不甘和较量,那种偶尔展露的在一些基准测试关键指标上跟OpenAI较劲的小手段和小心思,那些试图建立自己生态的步步为营,那种试图摆脱英伟达算力的尝试,以及基于移动优势在端侧模型的努力。

1. 每次Google在生成式人工智能领域祭出大招,都能让人感到一种隐秘且巨大的情绪力量:隐忍、不甘与较量。

2. 在5月的Google I/O上,Google发布PaLM系列模型,即被视为是对彼时风头正盛的GPT-4的强劲挑战。年底毫无预警地祭出Gemini系列大语言模型(包含移动版Nano、基础版Pro和高级版Ultra),在关键性能和基准评测指标上针对GPT的意图更加直接。

3. Google官方声称:在被大型语言模型研究和开发广泛使用的 32 项学术基准中,Gemini Ultra 的性能有 30 项超越了目前GPT–4代表的最先进水平。Gemini标榜“原生多模态”,这让它一开始就在文本、图像、音频、视频和代码等组合模态上进行预训练,故而可能在复杂理解和推理方面有更强表现,特别是解决数学和物理问题。

4. Google不遗余力地强调上述优势——OpenAI走的是“渐进式多模态”的路,先基于文本语料,代码跟进,再图像视频音频,最后把这些能力组合在一起训练。而Gemini从一开始就在多模态语料上训练,再用多模态数据调优,比OpenAI训练GPT的方法“先进”一些。

5. “先进”的多模态训练,理论上能带来更强劲的性能。公布的Gemini Ultra学术基准评测结果大面积超越GPT-4的细节似可说明。但学术基准测试本身就是理论的一部分,并不能真正体现应用的效果。不少人挤兑中国一些大语言模型热衷于基准测试“刷分”,我们该一视同仁,Google的做法与国内大模型冲着超越GPT刷分,本质上没有什么不同。

6. 目前社交平台X上实测Gemini Pro(Bard聊天机器人目前只支持Pro版)的用户已经贡献了不少吐槽。比如它混淆了2023年和2022年的奥斯卡奖获得者,也不会用Python写入两个多边形的交集这种简单函数。我们还发现它识别不出叶子的数量,以及做不对简单的求锐角几何题。即便Gemini Pro对标的是GPT-3.5,它也还是差了点意思。

7. 被人们指出的另一个突出问题是Gemini的宣传视频“造假”:Gemini Ultra对一组手势动作很快做出反应,说这是一个石头剪子布的游戏,但它未被视频显示的功能文档却给出了至少两条提示:“我在做什么?”,“提示,这是一个游戏”。其它的一些测试甚至需要更多的提示问题辅助生成结果,但这个过程在Gemini的官方视频里被省略掉了。以至于大多数不太较真的人高估Gemini的理解能力和反应速度,这不能不说是个误导。

8. 我到现在都记得2017年我在Google I/O的现场,台上的Google员工演示如何通过Google Assistant语音助手直接预订一家餐厅,下面掌声雷动,我也跟着拍巴掌,觉得太棒了。但一个月后即传出这是一个事先准备好的桥段。Google没有造假,但它通常太希望展示其AI能力的无与伦比,太急切地呈现自己的AI乐观主义,以至于经常缩略呈现了背后的过程,也就事实上夸大了效果。

9. 说白了,Gemini视频的夸张呈现,只是说明Google太在意Gemini比GPT强了。它很着急,加上人们对任何跟ChatGPT较劲的任何大模型,特别是巨头的“杰作”,通常都比较苛刻。当然,人们对Google是最苛刻的——毕竟OpenAI选择用Google发明的Transformer架构搞出了划时代的GPT模型,动机之一就是摆脱Google无所不在的AI压制,那谁还不希望看见Google露怯呢。

10. 某种程度上,Google是OpenAI在这个星球上唯一的孪生。包括Meta的LLamA架构都是开源的,以马斯克老师对开源的偏爱,Grok未来大概率也得开源。中国的大语言模型也在不同程度上都走了开源道路。只有OpenAI和Google是坚定闭源的,这就让Google在大语言模型上的进展,本能地与OpenAI形成了强绑定关系。

11. 还有一个戏剧性的张力:每次OpenAI有围绕GPT的大动作,舆论都会喊Google出来挨一回落后就要挨的打。然后Google差不多一定会在OpenAI出招之后的一到两个月,祭出一个新的大招,证明一下你大爷还是你大爷。然后再憋几个月,OpenAI再出招,Google再被喊出来挨打。格局真就会因此改变么?

12. 某种程度看,Google在生态建设上还是比OpenAI落后了一个身位。毕竟这个世界上已经有几百万个开发者自己做的GPTs了。而Google最早要到明年初才能向开发者和企业客户提供强化训练反馈后的Gemini Ultra,让人们在上面开发自己的应用。到那时恐怕GPT Store都已经正式推出来了。我一直有点困惑,Google当年难道不是靠Android的开源夺得苹果半壁江山的么?这次怎么把这个角色让给Meta了?

13. 我真的不是要怪Google,我更期待Google证明自己。我们这群在1990年代末接触互联网的人,对Google是有一些很微妙的特殊感情的。而Google也必须证明自己的AI First战略能结出真正的果实。只是GPT的幽灵在Google徘徊,是一个事实。谁都可以试图摆脱这个幽灵,唯独Google不行,这是它无可选择的对手。

14. 其实Google今天围绕Gemini所做的一切,某种程度上能让我们中国的大语言模型开发者心有共鸣:大家的头顶上都徘徊着GPT的幽灵,这就让大家都试图通过某些努力,证明自己在某些方面比GPT做得更好。

15. Google在Gemini基准测试中采用了一切小“技巧”(采用更复杂的思维链提示和结果选优,而测试GPT只用5次反馈且无提示词)获得了碾压GPT的成绩,类似的测试方法我们是不是听起来很熟悉?中国的大语言模型研发者有没有一种老乡见到了老乡的戚戚然的感觉?

16. 我们经常喜欢将智谱、百度和Minimax的努力与OpenAI做对比,但换一个思路,其实大语言模型的较量,何尝不是百度、智谱、Minimax、Google、Meta、Anthropic和Grox们一起在围攻OpenAI的光明顶?从这个意义上,中国大模型和美国除OpenAI之外的大模型在一个阵营一个战壕里,是抱团也是互相学习的对象。大模型的百草我们这些神农尝多了,就发现我们中国的大模型不是比美国的大模型差,只是不如ChatGPT,就这样。

17. Google这次训练Gemini的另一个值得圈点的地方,是它完全采用了自家的芯片集群——TPU进行的训练。Google官宣TPUs v4和 v5e在通过AI优化过的基础设施上实现了这一大规模训练,可扩展性强且推理最高效。这恐怕是我们听说的一款性能还算强劲的大语言模型,不依赖英伟达的算力和软硬件架构而修成正果的。当然人家TPU是自产自销的,但我看到了“替代英伟达”这件事在大模型训练实操上的可能性和可行性。这对中国的大语言模型训练意味着什么,不言自明。

18. 此外,Gemini Nano也是一个亮点,这是一款尺寸最小的Gemini模型,优先用于G家自产的Pixel 8手机上。“端侧大模型”是近期的一个话题,其实它更接近“小模型”。中国智能手机厂商OPPO、vivo和小米近期都有发布自己的端侧模型,联想则从AI PC的维度也切进了事实上的同一个领域。这次Google加入了这个阵营,应该是一个信号,这件事值得努力,有的做。

19. 其实很神奇。从Google这次Gemini模型的发布,我看到了Google与一众我们熟悉的中国大语言模型开发者同样的境遇和努力:那种隐忍、不甘和较量,那种偶尔展露的在一些基准测试关键指标上跟OpenAI较劲的小手段和小心思,那些试图建立自己生态的步步为营,那种试图摆脱英伟达算力的尝试,以及基于移动优势在端侧模型的努力……面对OpenAI,大家都是一样的。

20. 一个GPT的幽灵,在Gemini的上空徘徊,也在我们每一个中国大语言模型的上空徘徊。

本文来自微信公众号:硅基立场(ID:gh_1b4c629a6dbd),作者:骆轶航

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
(0)
上一篇 2023年12月9日
下一篇 2023年12月9日

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日