OpenAI神秘GPT-2正在A/B测试,奥特曼抢先剧透

Im-a-good-gpt2-chatbot

Im-also-a-good-gpt2-chatbot

和GPT-4-Turbo(左)同场竞技,gpt2-chatbot(右)明显更胜一筹。

还有人测试了一道推理题目,im-a-good-gpt2-chatbot可回答正确,im-also-a-good-gpt2-chatbot也能做到但需要两次提示。

本文来自微信公众号:量子位 (ID:QbitAI),作者:明敏,题图来自:视觉中国

OpenAI正在秘密A/B测试下一代模型,实力超强被怀疑是GPT-4.5或GPT-5。

就在奥特曼当谜语人暗示之后,两款新模型悄悄上线大模型竞技场。

  • Im-a-good-gpt2-chatbot

  • Im-also-a-good-gpt2-chatbot

和GPT-4-Turbo(左)同场竞技,gpt2-chatbot(右)明显更胜一筹。

提示词:画一个自由女神像。

此前一款名为gpt2-chatbot的超强模型仅仅上线一天,热情的网友就把服务器挤爆了,不得不下架,大家纷纷表示还没玩过。

这次重新上线后,模型在一次报错中直接给出了跳转OpenAI平台网站的链接

这下大家都嗨了,坐实了是OpenAI在搞A/B测试?

还有人表示,这俩模型可能已经在推理和计划方面进行微调。

现在在竞技场里随机匹配,就能遇到这俩新模型。

这不,网友们已经纷纷前去测试,一探它们的底细了。

代码能力突出

和第一次露面有所不同,如今想要用上gpt2,只能在Arena(battle)里碰运气,Direct Chat中找不到它们的影子。

有的人运气好,试了5次就成功让这俩模型battle了一局。

结合几个示例来看,im-also-a-good-gpt2-chatbot生成的回答似乎总是更简洁一些。

代码生成方面,它能一次生成一个可执行的游戏代码。

提示词:Code Flappy Bird game in Python

效果如下:

如果回答的代码有误,可以进一步追问让它自己改正。

比如让它们写一个康威生命游戏的代码,在未告知使用Colab时,模型写出的代码有问题。

但继续追问并表示自己用的是Colab,im-also-a-good-gpt2-chatbot能够自己修改代码,im-a-good-gpt2-chatbot不行。

还有在解决物理题方面,有Reddit用户说im-also-a-good-gpt2-chatbot能解答出其他模型都答不对的物理题。

问题:绿灯侠从一栋高楼楼顶跳下,他从静止状态开始做自由落体运动到地面,在他下落过程的最后1秒时,距离地面的距离是大楼一半的高度,这座楼有多高?

不过我们实测了下,im-a-good-gpt2-chatbot似乎也能做对。

还有人测试了一道推理题目,im-a-good-gpt2-chatbot可回答正确,im-also-a-good-gpt2-chatbot也能做到但需要两次提示。

问题:现在有两个足球队。球队A赢了8次,球队B赢了5次,已知还剩7次比赛,球队B想要赢得整场比赛,还需要至少赢几次?

网友:白嫖大家反馈吗?

尽管OpenAI还是没有正式认领gpt2-chatbot,但网友几乎已经默认它们是一家了。

因此有人觉得,gpt2-chatbot在竞技场上搞A/B测试,这不是让大家免费给他当志愿者。

OpenAI想要对内部模型进行人工评估,应该付给测试人员报酬,而不是在免费社区做。

有人觉得他们这么做,就是为了炒热度。

但现在gpt2-chatbot的底层模型到底是啥还不确定。

有人直接问了gpt2-chatbot,但可能存在幻觉,它表示自己基于GPT-4架构,是GPT-4.5的变体。

但之前奥特曼在公开演讲中已经否定了。测试网友表示自己没有给出过GPT-4.5相关的提示内容。

也有人怀疑,这两个模型大小不一样,叫这个名字是不是因为采用了GPT-2的架构来训练模型。

这和单纯的MoE不同,它们使用了Q*、合成数据,Sam的推特编辑历史是不是暗示了这一点?

值得一提的是,最近有大V爆料称本周OpenAI将公布进军搜索引擎的消息。

OpenAI已经更新了网站主页,第一个轮番页是一个搜索框上面写着“向ChatGPT问任何事情”

爆料说这次发布的时间可能在北京时间周五的凌晨2点。

总之,最近OpenAI的动向,都有点神秘。

参考链接:
[1]https://twitter.com/itsandrewgao/status/1787758687651811705
[2]https://twitter.com/DimitrisPapail/status/1787899811514982887
[3]https://twitter.com/AlphaSignalAI/status/1786025388902097077
[4]https://gizmodo.com/powerful-new-gpt2-chatbot-mysteriously-returns-1851460717

本文来自微信公众号:量子位 (ID:QbitAI),作者:明敏

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
(0)
上一篇 2024年5月8日 16:09
下一篇 2024年5月8日 16:20

相关推荐

  • 微软Xbox、索尼PS、任天堂Switch,实体游戏仍未被淘汰?

    据Piscatella预测,数字版游戏将在未来2年内呈爆发式增长态势,预计到2028年,大部分Xbox与PlayStation平台游戏都将只发布数字版,步调相对缓和的任天堂可能是唯一保留实体卡带的游戏厂商。尽管PlayStation也和Xbox一样在主机产品线上试水推出无光驱版本,引导玩家向数字版游戏过渡,但PlayStation依然对实体游戏市场保留了足够多的重视,更不必说实体游戏销量占比更高的Switch平台了。

    未来科技 34分钟前
  • Ilya官宣离开OpenAI后,点赞了这篇论文

    柏拉图表征假说有一个非常重要的推论,即不同模态、不同算法架构的AI模型都会汇聚到同一个终点目标,那就是形成对于高维现实的准确表征。

    五、AI模型表征收敛背后的三大原因

    通过实验结果,我们发现柏拉图表征假说确实存在。

    六、Scaling有用,但未必高效

    柏拉图表征假说有着几个重要推论,每个推论都对未来AI的发展有着方向性的指导意义。

    未来科技 1小时前
  • “唯快不破”的互联网方法论,为什么在AI上失灵了?

    和互联网进行对比,我们就会发现一个是浅层链接,一个是被链接点的深层价值创造。

    互联网VS人工智能

    先上个图:

    这里面第一点不再展开了,后面几点则要从应用的视角进行理解,而不是纯粹的技术视角。

    以公司为例,我们会发现价值创造往往是在一个被互联网强化过的网里面的价值创造(没互联网也是网,互联网只是强化)。

    小结

    人工智能产品可以看成是过往各种技术的综合,数字相关的技术就是电脑、手机、互联网等,人工智能会把他们无缝地综合在一起。

    未来科技 16小时前
  • 中美AI的五月剧变

     
    在跨境数据传输的规则被进一步明确后,AI大厂在中国的落地方法论将更为清晰,这预示着中国与国际各AI大厂的合作或许会进入下一阶段。
     
    AI全球化的推力和阻力
     
    在加大对国际AI厂商的开放度之外,中国正通过深化政府间合作,加速AI时代的全球化步伐。
     
    在开源模型领域,中国的人工智能模型在某种程度上确实依赖美国开发的开源模型。

    未来科技 16小时前
  • Meta发布“变色龙”混合模态模型,要挑战GPT-4o?

    //arxiv.org/pdf/2405.09818

    与GPT-4o一样,Chameleon采用了统一的Transformer架构,使用文本、图像和代码的混合模态完成训练。

    Chameleon的生成结果,文本和图像交错出现

    所谓“混合模态”基座模型,指Chameleon不仅使用了端到端的方式从头开始训练,而且训练时将所有模态的信息交织混合在一起,并使用统一的架构处理。

    并且,Chameleon生成的图像通常与上下文相关,这样一来,这种交错内容的输出对用户来说,极具吸引力。

    未来科技 18小时前
  • GPT-4o团队引热议:狠狠重任新人,经验职级都是浮云

    具体情况,咱们来扒一扒就清楚了:

    做出伟大产品的年轻团队们

    本次吃瓜活动,就从最近万众瞩目的GPT-4o背后团队(以下简称Omni团队)下手吧。

    想当初,PD哥是以本科毕业生的身份加入OpenAI的,虽然这个本科是MIT(手动狗头)。

    此前在OpenAI工作了一年多时间,今年7月份从OpenAI又跳回到谷歌,他可能是唯一一位对GPT-4和Gemini都有贡献的人类了。

    未来科技 19小时前
  • 苹果提前公布的这个iOS18新功能,可能比AI Siri更有趣

    等功能上线后,我们“听歌”时,iPhone可以随着音乐产生特定振动,为便携音乐增添一种新的感官语言。

    今天,我们将借着“音乐触觉”,了解一下听障群体通过振动感受音乐的方式,如何为所有人开启了一种新的可能性。

    iPhone的触觉潜力,终于又有机会“觉醒”

    作为一位曾经的iPhone。

    “音乐触感”则有潜力带来音乐的另一种感官维度。

    未来科技 20小时前
  • 奥特曼回忆OpenAI宫斗第一季:一生中最奇特的时刻

    “我们最初只是玩机器人和游戏等一些小项目,有人开始研究大语言模型,Ilya坚定地相信它,并且确定了我们的大方向,我们从GPT-1一口气做到GPT-4。

    语音模型是我们推出的一个很酷的东西,但也许最重要的是,我们能够使它如此高效地为免费用户提供服务,简直可以说得上是世界上最好的模型。Bartlett:你认为在GPT飞速发展的当下,能够活下来的人工智能企业的特点是什么。

    未来科技 23小时前
  • OpenAI解散Ilya重要团队,前高管怒斥,宫斗第二季?

    //venturebeat.com/ai/openais-former-superalignment-leader-blasts-company-safety-culture-and-processes-have-taken-a-backseat/

    本文来自微信公众号:机器之心(ID:almosthuman2014),作者:机器之心编辑部

    未来科技 1天前
  • 人工智能如何影响文博保护与传承?

    //venturebeat.com/ai/ai-enabled-technologies-could-help-museums-survive-the-digital-age/
    [3]Ben。//www.politico.com/newsletters/digital-future-daily/2023/04/24/ai-vs-the-culture-industry-00093550
    [4]《深度学习研究综述》,张荣等,《信息与控制》,2018年第47卷
    [5]Museums。

    未来科技 1天前