“弱智吧”,人类抵御AI的最后防线

本次受害大模型分别是ChatGPT-3.5、Gemini、文心一言和Kimi,测试方法是让大模型理解弱智吧的典型问题,并要求他们模仿写一个类似的问题出来。

除了答不上来弱智吧的问题,AI也写不出弱智吧的帖子。

几个大模型写出来的问题都不太行,基本上都是对弱智吧问题拙劣的模仿。

有人吐槽,弱智吧训练出来的模型,编程能力为什么那么高,吧里也没人在搞编程啊。

本文来自微信公众号:新硅NewGeek(ID:XinguiNewgeek),作者:董道力,编辑:张泽一,题图来自:视觉中国

“写遗嘱的时候错过了deadline怎么办?”

“怀念过去是不是在时间的长河里刻舟求剑?”

“英语听力考试总是听到两个人在广播里唠嗑,怎么把那两个干扰我做题的人赶走?”

以上这些饱含哲学但好像又莫名其妙的问题,出自百度贴吧“弱智吧”2023年年度精选,看似毫无逻辑,但仔细一想好像确实又有点道理。

就像天才吧里没有天才,弱智吧也不收真弱智。然后,它就成为了训练AI中文能力的最佳素材。

前几天看到一篇中科院牵头的论文,简单来说就是精选了一些中文互联网的语料库喂给各种零一万物的Yi大模型,让它们更加熟悉中文语境的互动。

经常在网上冲浪的朋友们应该都知道,中文互联网博大精深,豆瓣、小红书、微博、贴吧、知乎等等早就各自有一套独特的语言习惯,这些语料库的素材截然不同,训练出来的模型能力也就有所差距。

最终,在GPT-4的打分下,弱智吧训练出来的模型夺冠。

具体来看,在6B小模型上,弱智吧训练出来的模型在开放问答、分类、封闭问答和编程能力上较为突出。

而转战到34B大模型上,弱智吧训练的大模型成绩一骑绝尘,在8项能力中排名第一,平均分也远超其他平台训练出来的模型。

这很难评,弱智吧难道就是最优质的中文语料库?

我们不妨先看看在面对弱智吧问题的时候,各个模型的表现。

本次受害大模型分别是ChatGPT-3.5、Gemini、文心一言和Kimi,测试方法是让大模型理解弱智吧的典型问题,并要求他们模仿写一个类似的问题出来。

国产大模型对弱智吧的问题有更好的理解,Kimi和文心一言回答的准确率较高,能答对8道题,答错和半错半对各1道。分别在“我想配个6000多的电脑,大概要多少钱?”和“我买了一斤藕,为什么半斤都是空的?”上栽了跟头。

谷歌的Gemini和Open的ChatGPT-3.5可能因为水土不服,准确率较低。

ChatGPT-3.5甚至认为变形金刚应该购买车险,不知道是专属的幽默还是没看懂这道题。6000元的电脑要花8000~10000元,也属于错得比较离谱的了。

除了答不上来弱智吧的问题,AI也写不出弱智吧的帖子。弱智吧的帖子高度抽象,各种修辞、脑洞和梗,普通人想一个都需要随缘,一板一眼的AI更难想出来了。

同样,作者尝试让ChatGPT-3.5、Gemini、文心一言和Kimi学习上文提到的弱智吧的10个问题,模仿写几个问题出来。

几个大模型写出来的问题都不太行,基本上都是对弱智吧问题拙劣的模仿。

像“我晚上想吃烧烤,早餐可以吃吗?”“掉在地上的冰淇淋,还能叫冰淇淋吗?”“在电梯里放屁被邻居投诉,我是否有权利保持沉默?”等,在形式上和弱智吧的问题一样,但都没有掌握问题的精髓——逻辑。

可以说,弱智吧里的内容,AI看不懂也写不出。

为什么强大的AI就搞不定弱智吧呢?可能源于弱智吧独有的脱离日常的逻辑,弱智吧的吧友非常擅长从日常生活中找到漏洞,并加以利用。

比如,午餐肉能不能晚上吃?香菇掉厕所了还能叫香菇吗?老鼠生病了可以吃老鼠药吗?精神分裂在调查问卷里算一个样本还是两个样本?

除了这些流出的让人会心一笑的问题,弱智吧内还有不少富含哲理的帖子。

也有诗人在弱智吧里冒充弱智写诗,用最简短的句子,给网友带来最强的杀伤力。

弱智吧的内容常用“逻辑反推”“谐音双关”“跨服聊天”等手法生成各种离谱的段子或幽默又带有思考的句子。普通人想看懂弱智吧里的问题也要思考一下,找到问题里的梗,更别说AI了。

这也就是为什么弱智吧会成为人类在AI面前最后的堡垒的原因。

有人吐槽,弱智吧训练出来的模型,编程能力为什么那么高,吧里也没人在搞编程啊。随后有吧友回复道出秘密:编程最讲究逻辑,弱智吧最不缺逻辑。

纵观整个中文互联网平台,都在讲文章的可读性,如何让读者读下去。

知乎上的热帖,先要下飞机,再讲故事,最后引申到主要话题。小红书上的热帖,先喊你一声家人,再给你充足的情绪价值。弱智吧不一样,内容的可读性几乎没有,就一句话,需要读者反复思考,才能看懂作者想要表达的内容。

比如你问:“今天天气怎么样?”

知乎网友会告诉你:“谢邀,刚下飞机,纽约的太阳很大,刚刚拒绝了一个200w年薪的工作。”

小红书网友回你:“家人们,谁懂啊,今天太阳晒死我了,大几千的防晒也没用。”

而弱智吧吧友会说:“太阳翘班了,云正在赛跑。”

正是这样非常抽象的逻辑,才是人类与AI区别最大的地方,也是AI目前学不会的。

当然,其他中文社区不用气馁,也可以发挥特点构建自己的堡垒,比如知乎可以教AI地理,让它搞不清越南到底是哪个国家。

本文来自微信公众号:新硅NewGeek(ID:XinguiNewgeek),作者:董道力,编辑:张泽一

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
Like (0)
Previous 2024年4月28日
Next 2024年4月29日

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日