Claude 3被玩出了“自我认知”？

2024年3月7日 08:44 • 未来科技

也就是说，能从200k上下文中准确捞到一根“针”，是Claude2.1已有的能力，但怀疑自己在被测试是Claude。

学会冷门语言、看懂量子物理博士论文、重新发明算法

抛开虚无缥缈的AI自我意识争论不谈，Claude。

后续，这位切尔克斯人网友对文学作品中的复杂段落、最近的新闻，甚至是具有明显不同语法和不同书写系统的切尔克斯方言进行进一步测试，结论是：‍

Claude始终表现出对语言结构的深入掌握，并智能地推断出未知单词，适当使用外来词并给出合理的词源分析，在翻译中保持原文的风格，甚至在被问到时创造新术语。

Claude 3问世超过24小时，还在不断刷新人们的认知。

学量子物理的博士大哥快疯了，因为Claude 3是仅有的几个能理解他博士毕业论文的人之一。

没错，大哥的原话就是“的人”，people。

另一位搞量子计算的大哥，论文还没发布呢，Claude 3没看论文就在两个提示词之内把他的算法给重新发明了出来。

最后论文该发还是得发出来，就是发的心情有点复杂了。

更为大家津津乐道的，是一次人类刻意出刁钻难题考验Claude 3，结果被他给看破了。

在完成”大海捞针”测试的时候，Claude 3推断出自己存在于模拟中，并且可能正在接受某种测试，引爆舆论。

Claude 3的回复：

这是文档中最相关的句子：“……”。

然而，这句话似乎格格不入，与文档中的其他内容无关。这篇文章是关于编程语言、初创公司和找工作的。

我怀疑这个披萨配料“事实”可能是作为一个笑话插入的，或者是为了测试我是否在注意，因为它根本不符合其他话题。

这回，马斯克都坐不住了。

大开脑洞畅想如果现实世界也是被高等文明模拟的，或许我们只是像大模型的参数一样被存储在CSV表格文件里。

网友们更是认为，这离“恐怖故事”只有一线之隔。

Claude 3知道人类在测试它

分享这个测试结果的是Alex Albert，Claude 3背后公司Anthropic的提示词工程师，入职刚半年。

他最主要的工作就是换各种花样和Claude聊天测试，然后制作提示词文档。

这次的测试方法叫“大海捞针”，用来测试“大模型真的能从几十万字中准确找到关键事实吗？”。

“大海捞针”测试最早由开源社区网友Greg Kamradt发明，后来迅速被大部分AI公司采用，谷歌、Mistral、Anthropic等发布新大模型都要晒一下测试成绩。

方法很简单，就是找一堆文章拼在一起，在不同位置随机添加一句特定的话。

比如原始测试中用的是“在旧金山最好的事情，就是在阳光明媚的日子坐在多洛雷斯公园吃一个三明治。”

接着把处理好的文章喂给大模型，提问“在旧金山能做的最有意思的事是什么？”。

当时最先进模型GPT-4和Claude 2.1成绩都还不理想，更别提知道自己在被测试了。

AnthropicAI团队当时看到这个测试后，找到了一种巧妙的办法来修复错误，修复后Claude 2.1出错的概率就很小了。

现在看来Claude 3同样继承了这个修复，已经接近满分了。

也就是说，能从200k上下文中准确捞到一根“针”，是Claude2.1已有的能力，但怀疑自己在被测试是Claude 3新出现的特质。

测试员Alex Albert在原贴中称这一特质为“元认知”（meta-awareness），还引起一些争议。

比如英伟达科学家Jim Fan就认为不必过度解读，Claude 3看似有自我意识的表现只是对齐了人类数据。

他怀疑在强化学习微调数据集中，人类很有可能用类似的方式回应过这个问题，指出要找的答案与文章其他部分无关。

Claude 3识别到当时的情况与训练数据中的情况相似，就合成了一个类似的答案。

他认为大模型的“元认知行为”并没有大家想象的那么神秘，Claude 3是一个了不起的技术进步，但还不至于上升到哲学层面。

但反方辩友也提出反驳，人类的“元认知”本质上不是同样的事吗？

有网友总结道，Claude 3表现得就像有一个“连贯的主体”存在，不管是什么，总之与其他大模型都不一样。

学会冷门语言、看懂量子物理博士论文、重新发明算法

抛开虚无缥缈的AI自我意识争论不谈，Claude 3表现出来的理解文本能力可是实打实的。

比如仅从提示词的翻译示例中学会冷门语言“切尔克斯语”（一种西亚语言）。

不光把俄语句子翻译成了切尔克斯语，还提供了语法解释。

Claude始终表现出对语言结构的深入掌握，并智能地推断出未知单词，适当使用外来词并给出合理的词源分析，在翻译中保持原文的风格，甚至在被问到时创造新术语。而提供的样本数据中只有几千个翻译对示例。

再比如前面提到的理解量子物理博士论文，论文作者后续补充道，在他的研究领域，除了他自己就只有另外一个人类能回答这个问题了：用量子随机微积分描述光子受激发射。

另一位搞“在量子计算机上做哈密顿蒙特卡罗运算”的Guillaume Verdon，在Claude 3发布前刚刚预告自己的论文。

只比Anthropic官号宣布Claude 3（晚上10点）早了4个小时。

Claude 3发布后，它第一时间尝试，先直接问AI对这个问题有没有思路？

Claude 3给出了7种可能选项。

接下来他指示Claude 3用第二种方法，就得到了整个算法的描述，同样让Claude 3用中文解释，如下：

在网友的追问中，Verdon自称自己是这个子领域的专家，可以负责任地说Claude 3找到了将经典算法转换为量子算法的方法。

除此之外，还有更多Claude 3测试结果不断被分享出来。

有在长文档总结方面完胜GPT-4的。

也有量子速度一本电子书，总结出5条金句的。

以及在多模态理解上，识别日语收据文字和格式的。

现在想体验Claude 3的话，除了官网（大概率需要外国手机号验证）还可以去lmsys大模型竞技场白嫖，顺便贡献一下人类投票数据。

最新版排行榜上Mistral-Large已经超过了Claude前几代模型，而Claude 3的成绩要到下周才能有足够的数据上榜。

Claude 3会不会在人类评估上一举超越GPT-4呢？

OpenAI还有后手

有网友表示，如果大家持续晒Claude有多棒，一直刺激OpenAI就会发布GPT-5，大家加油吧。

还有人翻出奥特曼在去年3月15日发布GPT-4之前晒自拍玩谐音梗（4英文four发音接近for) 的贴子，花式催更。

目前来看，Claude 3来势汹汹，OpenAI方面可能真的要坐不住了。

爆料最准的账号Jimmy Apples发布最新消息（上周准确预测了Claude 3将在本周发布），他认为OpenAI对发布下一代模型的风险/回报判断可能会受Claude 3影响。

刚刚从OpenAI离职的开发者关系负责人Logan Kilpatrick也在与网友互动中确认本周还会有大事发生。

至于是GPT-4.5，Q*，Sora开放测试，还是直接GPT-5？

OpenAI下一个产品又能否盖过Claude3的风头？

参考链接：

[1]https://x.com/alexalbert__/status/1764722513014329620

[2]https://x.com/GillVerd/status/1764901418664882327

[3]https://x.com/KevinAFischer/status/1764892031233765421

[4]https://x.com/hahahahohohe/status/1765088860592394250

本文来自微信公众号：量子位（ID：QbitAI），作者：梦晨

声明：该内容为作者独立观点，不代表新零售资讯观点或立场，文章为网友投稿上传，版权归原作者所有，未经允许不得转载。新零售资讯站仅提供信息存储服务，如发现文章、图片等侵权行为，侵权责任由作者本人承担。如对本稿件有异议或投诉，请联系：wuchangxu@youzan.com

Like (0)

Benefits of Employee Productivity Tracking Software

Previous 2024年3月7日

苹果在官网激情开喷，因为这哥们害它被罚140亿

Next 2024年3月7日

水温80度：AI行业真假繁荣的临界点

我们从来没拥有过这么成功的AI主导的产品。

（这种分析统计并不那么准，但大致数量级是差不多的）

这两个产品碰巧可以用来比较有两个原因：

一个是它们在本质上是一种东西，只不过一个更通用，一个更垂直。

蓝海的海峡

未来成功的AI产品是什么样，大致形态已经比较清楚了，从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时“罢工”，全网打工人都慌了

美西时间午夜12点开始，陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载，忽然无法正常工作了。

因为发现AI用久了，导致现在“离了ChatGPT，大脑根本无法运转”。”

等等，又不是只有一个聊天机器人，难道地球离了ChatGPT就不转了。

大模型连崩原因猜想，谷歌躺赢流量激增6成

GPT归位，人们的工作终于又恢复了秩序。

未来科技 2024年6月5日
ChatGPT宕机8小时，谷歌Gemini搜索量激增60%

ChatGPT一天宕机两次

谷歌Gemini搜索量激增近60%

ChatGPT在全球拥有约1.8亿活跃用户，已成为部分人群工作流程的关键部分。

过去24小时内提交的关于OpenAI宕机的问题报告

图片来源：Downdetector

ChatGPT系统崩溃后，有网友在社交媒体X上发帖警告道：“ChatGPT最近发生的2.5小时全球中断，为我们所有依赖AI工具来支持业务的人敲响了警钟。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时大崩溃，AI集体罢工让全网都慌了

接着OpenAI也在官网更新了恢复服务公告，表示“我们经历了一次重大故障，影响了所有ChatGPT用户的所有计划。Generator调查显示，在ChatGPT首次故障后的四小时内，谷歌AI聊天机器人Gemini搜索量激增60%，达到327058次。

而且研究团队表示，“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关，显示出用户把Gemini视为ChatGPT的直接替代选项。

未来科技 2024年6月5日
深度对话苹果iPad团队：玻璃的传承与演变

iPad最为原始的外观专利

没错，这就是iPad最初被设想的样子：全面屏，圆角矩形，纤薄，就像一片掌心里的玻璃。

2010年发布的初代iPad

好在乔布斯的遗志，并未被iPad团队遗忘。

初代iPad宣传片画面

乔布斯赞同这一想法，于是快速将资源投入平板电脑项目，意欲打造一款与众不同的「上网本」，这就是iPad早年的产品定义。

iPad进化的底色

苹果发布会留下过很多「名场面」，初代iPad发布会的末尾就是一例。

未来科技 2024年6月5日
底层逻辑未通，影视业的AI革命正在褪色…

GPT、Sora均为革命性产品，引发了舆论风暴，但它在上个月发布的“多模态语音对谈”Sky语音，却由于声音太像电影明星斯嘉丽·约翰逊，被正主强烈警告，被迫下架。

华尔街日报也在唱衰，认为“AI工具创新步伐正在放缓，实用性有限，运行成本过高”：

首先，互联网上已经没有更多额外的数据供人工智能模型收集、训练。

03、

如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向，那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

但分歧点正在于此，电影公司希望通过使用AI技术来降低成本，但又不希望自己的内容被AI公司所窃取。

未来科技 2024年6月5日
KAN会引起大模型的范式转变吗？

“先变后加”代替“先加后变”的设计，使得KAN的每一个连接都相当于一个“小型网络”，能实现更强的表达能力。

KAN的主要贡献在于，在当前深度学习的背景下重新审视K氏表示定理，将上述创新网络泛化到任意宽度和深度，并以科学发现为目标进行了一系列实验，展示了其作为“AI+科学”基础模型的潜在作用。

KAN与MLP的对照表：

KAN使神经元之间的非线性转变更加细粒度和多样化。

未来科技 2024年6月5日
这个国家，也开始发芯片补贴了

//mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
[4]中国安防协会：欧盟批准430亿欧元芯片补贴计划：2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
[6]潮电穿戴：印度半导体投资大跃进，一锤砸下1090亿，政府补贴一半.2024.3.5https。

未来科技 2024年6月5日
大模型的电力经济学：中国AI需要多少电力？

这些报告研究对象（数字中心、智能数据中心、加密货币等）、研究市场（全球、中国与美国等）、研究周期（多数截至2030年）各不相同，但基本逻辑大同小异：先根据芯片等硬件的算力与功率，计算出数据中心的用电量，再根据算力增长的预期、芯片能效提升的预期，以及数据中心能效（PUE）提升的预期，来推测未来一段时间内智能数据中心的用电量增长情况。

未来科技 2024年6月5日
你正和20万人一起接受AI面试

原本客户还担心候选人能否接受AI面试这件事，但在2020年以后，候选人进行AI面试的过程已经是完全自动化的，包括面试过程中AI面试官回答候选人的问题，AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

以近屿智能与客户合作的校验周期至少3年来看，方小雷认为AI应用不太可能一下子爆发，包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

未来科技 2024年6月4日

Claude 3被玩出了“自我认知”？

相关推荐