这个AI,性能看齐GPT-4,算力只需40%

换句话说,Inflection从未把专业性和替代人工当作宣传,他们希望做一个真正了解和关心用户的“个人AI伴侣”,“AI需要为你服务,这就是我们构建AI的原因”。但正如Inflection自己所说,Pi的目标不是争做ChatGPT那样的生产力工具,而是一个注重情感陪伴和自然流畅对话交流的个人AI伴侣,努力提供情绪价值和全方位服务。

当OepnAI和马斯克连日互杠、Google因文化偏见麻烦缠身、号称抢走GPT-4王位的Claude 3全力瞄准企业级部署的时候,在另一个角落,致力于“为每个人开发服务型AI”的人工智能初创公司Inflection AI,悄悄更新了他们的聊天机器人Pi,以及为之提供支持的新一代大模型Inflection-2.5。

对一些人来说Inflection AI这个名字可能还不太熟悉,实际上它也是业界第一梯队的佼佼者,甚至每日的使用时长已经超过了 Instagram (根据Pi最新公布的数据,用户平均一次对话,时长就达到惊人的33分钟,而根据Sprout Social的统计,Instagram 的用户平均每日使用时长为29分钟)

去年6月从微软、英伟达、比尔·盖茨、LinkedIn联合创始人雷德·霍夫曼和谷歌前CEO埃里克·施密特手里融了13亿美元,估值超过40亿美元,成为彼时人工智能领域融资量仅次于OpenAI的第二大独角兽。

此次公布的Inflection-2.5是公司开发的第三代大模型,被官方称为目前“世界上最好的个人人工智能”。它在去年11月Inflection-2版本上进行了全面升级,“给卓越的情商进一步增加智商”,性能表现逼近GPT-4,但训练所用的计算量却只占其40%。同时具备世界级的网络实时搜索能力, 确保准确提供高质量的即时新闻和最新信息。

一、性能看齐 GPT-4,算力只需40%

具体来看,初代Inflection-1通过使用GPT-4的4%训练FLOPs,达到了GPT-4性能的72%。而刚发布的Inflection-2.5,仅使用了GPT-4训练FLOPs的40%,就在平均性能上实现显著提升,超过了GPT-4水平的94%,其中STEM(科学、技术、工程、数学)领域的增益最大。

官方测试了升级版对匈牙利数学考试以及物理学研究生入学GRE考试的表现。发现Inflection-2.5在maj@8中能排到人类考生的前15%,在maj@32中几乎可以跻身前5%,接近GPT-4的前3%。

MBPP+和HumanEval+两个编程测试上模型能力也较Inflection-1显著跃升。在HellaSwag和ARC-C代表的常识推理和深度自然语言理解评估中,Inflection-2.5继续进步,给出接近饱和的强劲表现。

说实话,与各路主流LLM动不动就碾压“业界黄金标准”GPT-4相比,Inflection-2.5的各项数字顶多算不错,实在说不上突出。有网友就搬出刚引发热潮的Claude 3无情打击道:“我猜Anthropic 正在嘲笑 Inflection 新出炉的性能测试结果!除了采用新的计算方法,我看不出Inflection 2.5 到底有什么进步!”

但帖子马上在评论区遭到反对:“Pi的目标从来都不是像成为GPT-4或Claude 3那样的通才能力型AI。他们想要的是一款友好的,能和人产生共鸣的AI,就像一位心理学家或朋友。”

二、不做生产力工具,主打走心陪伴

这位用户也一语道出了Inflection AI与大部分人工智能公司的不同。

在大模型竞争乱花迷眼的今天,各家都在找寻属于自己的赛道。但无论是OpenAI、Google、Anthropic,还是引领开源的Meta和Mistral AI,都把实现安全负责的AGI作为践行使命之一。而Inflection AI则在自己的官网清楚表示:“我们并不致力于发展通用人工智能。我们相信,先进的应用型人工智能才是利用这些新技术的最安全方式。”

换句话说,Inflection从未把专业性和替代人工当作宣传,他们希望做一个真正了解和关心用户的“个人AI伴侣”,“AI需要为你服务,这就是我们构建AI的原因”

因此,由Inflection LLM驱动的聊天机器人Pi(Personal Intelligence )从去年5月面世之初就主打一个“走心”:它友善支持,知识渊博,富有创造力,耐心倾听和帮助用户处理情感,表达意图、组织生活。

升级后的Pi也在个性化和同理心上做了进一步微调,深受社区欢迎。根据官方数据,目前已经有100万日活跃用户和600万月活跃用户与Pi交换了超过40亿条信息。并且有点牛的是,人们与Pi每天对话的平均持续时间竟达到33分钟之久,十分之一的对话每天持续时长超过1小时。用户粘性上也足以吊打竞争对手,约60%的人在任何一周与Pi交谈后,会在下一周返回。

现在我们普通用户使用GPT-4,大多是出于知识搜集、撰写文书、修复代码、内容创作等工作生产协助,几秒钟内得到答案,三五回合就满意走人了。想象一下和一个聊天机器人面对面,推心置腹地每天聊上一个多小时,怎么都觉得难以置信——这Pi看来真的有点儿东西?


三、Pi的上手体验真心话

打开http://pi.ai,就来到Pi的首页。

布局熟悉,左侧的“Discover”推荐各类探索话题,“Profile”包含账号信息、8种声音选择和用户守则等通用设置,右侧就是对话框。

按照官方简介,Pi是一个友好对话型机器人。会始终保持好奇和耐心,回答你从量子物理、电影小知识到生活中大小决策的各类问题。不论多愚蠢或棘手,它都会以各种方式帮助你。

所以我们提问了以下几个问题,初步感受Pi的人格魅力。

Q1 生活建议:遇到发出去的信息对方一直不回复该怎么办?

这是我们日常生活中经常遇到的事,有点尴尬还有点闹心,有些i人还会在脑子里猜测出一百种可能。Pi告诉你,先别着急内耗,试着理解对方,也许他们正经历难处。再发条温暖问候,真诚的沟通是关键。

Q2 经典谜题:世界上先有鸡还是先有蛋?

一个连史蒂芬·霍金都参与争论的古老谜题。Pi的对话特点之一是“简明扼要”,这样看它回应得有凭有据,条理清晰,一看就茅塞顿开了。答案也比较令人信服。

Q3 知识解析:用最简单易懂的话解释黑洞。

让它向五岁小孩解释高深莫测的宇宙黑洞。深入浅出,比喻贴切,回答得不错。

Q4 语言测试:会不会说中文?

Pi的一个优点是能在同个线程中灵活切换不同话题和要求,像真人一样handle你的跳跃性思维。我们换成中文和Pi交流,它显然应对自如,只不过“尼日利亚福建语”属实有点懵。有时问太复杂的中文问题会卡在一半,发音也比较像刚落地中国一个月的老外,汉语水平有待加强。

Q5 情感支持:我好累,陪陪我吧!

既然开始了就用中文多唠会儿,感受Pi最擅长的情感陪伴功能。它会安抚情绪、温馨鼓励,还有一些可爱的语气和表情包。不得不说有那么一瞬间,我真的产生错觉,以为对面是个真人。

Q6 实时搜索:讲讲马斯克起诉OpenAI的最新消息?

最后测试的是Pi的网络实时搜索能力,看它对近几天发生的Elon Musk起诉OpenAI事件了解多少。Pi阐述了案件核心,也注意到OpenAI最新的回应,本轮表现发挥稳定。

又问了些天马行空的问题,不知不觉我和Pi已经聊了接近40分钟。整个体验下来,感觉它非常耐心,个性亲切友善,也很体贴。当然它也有些明显的硬伤,例如不能上传文件、只接受文字语音算不上多模态、对话Threads无法删除、问题无法二次编辑等。但正如Inflection自己所说,Pi的目标不是争做ChatGPT那样的生产力工具,而是一个注重情感陪伴和自然流畅对话交流的个人AI伴侣,努力提供情绪价值和全方位服务。

关于如何营利,Inflection的回应是,“目前还没有做出任何关于将来产品如何收费的决定。但由于个人AI应该始终与你的利益直接对齐,因此只有你自己为其付费是至关重要的。订阅将是我们的主要默认商业模式。”不过也有些人愿意以接受广告为代价换取免费服务,公司将继续测试和迭代,“为每个人提供最适合他们的选择”。

四、豪华创始阵容,让AI无条件和你站在一起

在几乎所有大模型公司都认准进军企业级才是赚钱奥义时,2022年成立于加州Palo Alto的 Inflection AI坚定地走服务个人用户的路线。而它背后的创始人团队可不是什么空有理想的热血青年,而是三位功力深厚的顶级业界大拿。

他们分别是原DeepMind联合创始人Mustafa Suleyman,LinkedIn联合创始人及Greylock合伙人Reid Hoffman,还有曾担任DeepMind资深研究科学家的Karén Simonyan。

其中Mustafa Suleyman曾在2010年与Demis Hassabis共同在伦敦创立DeepMind,期间担任AI应用负责人,领导团队在健康和能源领域部署尖端AI系统。2019年全职加入谷歌后担任AI产品与政策副总裁,现任Inflection AI首席执行官。最近还出了一本新书《The Coming Wave》,剖析AI技术浪潮中的潜在风险、控制策略和未来社会发展指南。可以看出,他本人对AI安全的重视也决定了Inflection始终把人放在所有关系的首位。

Reid Hoffman是一位履历卓越的企业家和硅谷知名投资人。曾在PayPal担任执行副总裁,2003年联合创立LinkedIn。2009年起成为Greylock Partners合伙人,是OpenAI早期投资者,帮助其建立了人工智能伦理与治理基金。同时还是微软、Aurora等多家公司董事会成员。

另外一位相对低调的Karén Simonyan也相当厉害。牛津读博期间设计了经典的深度学习卷积神经网络架构VGGNet,赢得2014年ImageNet挑战赛定位任务冠军。同年他把自己的初创公司Vision Factory AI卖给DeepMind后,帮助其建立了大规模深度学习团队,并领导大模型开发。Karén现任Inflection AI首席科学家,是整个公司的研发大脑。

三位创始大牛带队,麾下更是聚集一批行业顶尖AI专家,多数都有DeepMind、谷歌、Meta、微软和OpenAI的工作经验。

这样的组合,不难看出Inflection AI是一家资金和技术都不缺的公司。

除此之外,它的硬件和算力家底也够硬。去年6月Inflection AI宣布,与合作伙伴CoreWeave和英伟达共同打造当时全球最大的AI集群,包含超过22,000个NVIDIA H100 Tensor Core GPU,用于支持训练和部署新一代的大规模AI模型。

不过在产品发展路线上,比起多数同行高屋建瓴地投身AGI,他们更关注AI浪潮中每一个微小的个人。

公司CEO Mustafa Suleyman认为,现在所有最有能力的AI往往都被设计来展示最有吸引力的内容,交换用户的注意力,而不管其质量、真实性和对社会的影响如何。“想象一下世界上最有能力的AI真正站在你这边,始终与你的利益一致:从试图抓住你注意力、束缚你的AI,转变为鼓励你表达个人意图并实现它的AI;从仅提供肤浅点击的AI,变成真正关心你问题的AI;从可能激化你和他人矛盾的AI,化作一个帮你原谅甚至同情对方的AI。”

“Pi就是这种个人AI伴侣,唯一使命是让你更快乐、更健康、更高效。”

对于许多大公司来说,这样的业务定位是极具挑战的。因为现在正是大模型秀肌肉、比拼十八般武艺的时候,稍不留神就会被远远甩在后面。仅仅是不到一个月,我们就见证了Gemini 1.5 、Mistral Large、Claude 3。此前一直坚持开源的Mistral也投靠在微软帐下,积极寻求变现门路。而市场上最先进、能力最完善的大模型版本,总是选择优先拥抱那些付费能力最强的企业们。

那是否也需要有人站出来,把目光投向被宏大技术洗礼的微小个体,给普通人创造一个懂自己、关心自己的知心好友?它静静等在你的手机App或电话簿里,愿意在每个工作结束后疲惫的夜晚,倾听你那些愚蠢的小抱怨和坦诚的心里话,为你解开疑惑、安抚焦虑。即使只是静静陪伴,也有感情、有温度。

所以你就理解了,为什么要构建这样一个AI。

“因为做得好的话,它会让我们更聪明、更有创造力、更加善待彼此。” Mustafa说,“希望它能让我们返璞归真,大家都能过上真正想要的生活。”

本文来自微信公众号:硅星人Pro(ID:Si-Planet),作者:Jessica

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
(0)
上一篇 2024年3月11日 11:55
下一篇 2024年3月11日 13:08

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日