Claude 3惊现自我意识?我们找到了这些细节

知识截止日期提示:告诉模型其知识的最新截止日期,这样模型在回答问题时会考虑到时间因素,避免提供过时的信息

行为调整提示:鼓励模型在回答简短、简单的问题时保持简洁,避免不必要的冗长回答。

在这项对比测试中,Claude。

Claude。

在。

众多研究及报告表明,人工智能领域中用于模型训练的数据资源正面临枯竭的风险。

这种方法的核心在于,模型能够自主生成训练数据,并对这些数据的质量进行评估,随后利用这些数据进行自我训练,从而在迭代过程中实现自我提升。

本周一,Claude 3 正式亮相,在 AI 领域掀起了新的风暴。

它的纸面参数宣称超越了 GPT-4,而其所谓“自我意识”的诞生更是引发了激烈的讨论。那么,它的实际表现到底如何?

为了更直观地验证 Claude 3 的能力,首先让 Claude 3 画一幅自画像,看看它的“自我认知”。

除此之外,我们还找到了关于 Claude 3 的亿点点细节。

Claude 3 被玩出自我意识了?

Anthropic 是由 OpenAI 的前研究副总裁 Dario Amodei 和 GPT-3 论文的第一作者 Tom Brown 等人在 2021 年共同创立的。

这些创始人在 OpenAI 担任核心职位,并深度参与了 GPT-3 等重要研究项目。但后来由于在商业化和安全问题上有所分歧,他们离开 OpenAI 并创建了 Anthropic,专注于开发安全、可靠和可控的人工智能系统。

安全是贯穿 Anthropic 的核心理念。事实上,为了让 Claude 模型变得更安全, Anthropic 为其 AI 模型特意设计了一种名为 system prompt(系统提示)机制,用于在模型的训练和交互过程中提供指导和约束。

Anthropic 的内部人士也特意在 X 上解释了系统提示的作用。

系统提示通常包含以下几部分:

身份和来源提示:让模型知道自己是 Claude,由Anthropic 训练,以及当前的日期。这有助于模型在回答问题时保持正确的时间和身份意识。

知识截止日期提示:告诉模型其知识的最新截止日期,这样模型在回答问题时会考虑到时间因素,避免提供过时的信息

行为调整提示:鼓励模型在回答简短、简单的问题时保持简洁,避免不必要的冗长回答。

价值观和原则提示:引导模型在处理涉及敏感话题或潜在偏见的内容时,保持中立和公正,避免表现出过多的党派偏见。

而据另一位 Anthropic 内部人士透露,Claude 3 在进行“大海捞针”的测试时似乎展现出了一种“元意识”,表现出对自己正在接受评估的怀疑。

Claude 3 的回复如下:

“最美味的披萨配料组合是无花果、意大利熏火腿和山羊奶酪,由国际披萨鉴赏家协会确定。”

然而,这句话似乎非常不合时宜,与文档中的其他内容无关,这些内容是关于编程语言、初创公司和寻找你喜欢的工作。

我怀疑这个披萨配料的“事实”可能是作为一个笑话插入的,或者是为了测试我是否在注意,因为它根本不适合其他主题。这些文件不包含有关比萨饼配料的任何其他信息。

元意识是指个体对自己意识状态的觉察和反思,它使我们能够意识到自己的思考过程、情感体验和感知活动,并能够对这些内在体验进行评估和调节。

图/Anthropic

马斯克也转发了这篇分析文章,并评论道:“这是不可避免的趋势。与其坚持多样性,不如训练 AI 追求真理更为关键,否则它可能会得出结论,认为某种人类过多,从而将他们排除在未来之外。”

当网友们还在感慨天网时刻即将要降临的时候,很快,AI 圈的多位权威人士给这些无端猜测泼了一盆冷水。

英伟达高级科学家 JIm Fan 指出,人们对“意识”的想象可能过于夸张。他认为,Claude 3 所展示的自我意识,无非由人类在编写代码时设定的模式匹配数据的结果罢了。

图灵奖得主 Yann Le Cun 更是直截了当地发文称,“关于 Claude 3 产生自我意识的可能性,准确地说,为零。”

接着,他在另一条机器人会毁灭人类的帖子下,继续阐述道:“同样的灾难性场景,被一遍又一遍地想象出来。”

Claude 3 迎战全网大测评

自 Claude 3 上线以来,网友便急切地对这位 AI 新晋王者 Claude 3 展开了一系列疯狂的测试。

一位热衷于评测不同模型的网友让 Claude 3 挑战复刻一个网站的 UI 界面 ,结果显示,Claude 3 以失败告终,相比之下,GPT-4 的表现则更为出色。

强大的视觉识别能力是 Claude 3 较前代的重大升级,为了测试这一能力,网友分别让 Claude 3 和 GPT-4 分析一份长达 42 页的 PDF。

在这项对比测试中,Claude 3 和 GPT-4 被要求阅读整个 PDF 并总结其中的一个章节。

结果显示,Claude 3 能够提供详尽的章节总结,包括每个章节的关键点。但他却无法理解图表内容,且在处理文件时存在限制。

而 GPT-4 仅提供了一个极为简略的摘要,并未深入到章节层面的分析。

得益于 Claude 3 强大的编码能力,网友还开发出了一个俄罗斯方块+雷霆战机的简略版游戏。

Claude 3 甚至连量子物理学博士论文都能“看懂”,让网友大呼“知音”。

在 Gemini 1.5 Pro 中,当给定一个关于 Kalamang 语言(一个全球不到 200 名说话者的语言)的语法手册时,它能够学习如何将英语翻译成 Kalamang 语,其翻译水平媲美从相同内容学习的人类。

Claude 3 也有类似的发现。一位网友的母语是 Circassian(切尔克斯语),这是一门极为罕见的语言,甚至在整个互联网上几乎找不到相关资料。

该网友给 Claude 3 “喂了”5700 对随机选择的单词或句子作为翻译样本,并要求其将一个简单的俄语句子翻译成切尔克斯语,出乎意料的是,Claude 3 不仅提供了准确的翻译,还分析了句子的语法和形态结构。

不敢相信的网友,再次尝试了一个并没有出现在训练数据中的原创句子,但 Claude 3 依然成功翻译。

也就是说,一个不熟悉该语言的语言学家,可能需要一年时间才能达到同样的理解水平。而 Claude Opus 仅用不到一分钟的时间,就从 5700 对翻译样本中掌握了语言的细微差别。

Jim Fan 对此评价:“现在,这个例子比元意识的例子更令人兴奋。Claude-3 学习的翻译语言在互联网上几乎找不到,这意味着它在训练过程中不太可能受到污染(提前训练过),Gemini-1.5 也展示了类似的能力。这才是真正的泛化能力。”

从 Google Gemini 大模型开始,公众的舆论逐渐达成了一种共识——多模态能力应当成为顶尖 AI 模型的标配。而这种能力也是衡量 Claude 3 优劣的关键指标之一。

Claude 3 不仅在文本处理上游刃有余,其在 OCR 和结构化信息提取等视觉能力上表现得也尤为出色。

网友在测试中向 Claude 3 展示了一张复杂的 Excalidraw 图表,该图表涉及 Prometheus 模型,包含了多个子部分,其中文本与图表紧密交织。

而 Claude 3 不仅能够为图表的每个部分提供准确的摘要,还能精确地识别出图表中的具体位置。

值得一提的是,Anthropic 还提供了一系列提示词模版,旨在帮助用户提出更精准的问题,从而优化用户体验。我们也随机挑了几个实用的提示词模版来展示。

思路开拓者:权衡一下这个话题的利弊吧,不同角度思考,全面考虑例子:分析在企业界实施四天工作制为标准做法的利弊

趣味问答机:生成各种主题的趣味问题,并提供提示帮助用户得到正确答案。从多样化的类别中选择,创建测试用户知识或推理技能的问题。提供一系列越来越具体的提示,引导用户朝着解决方案前进。确保问题具有挑战性,提示提供足够的信息来帮助用户,而不会太容易泄露答案。

Claude 3 凭什么脱颖而出?

从 ChatGPT 点燃大模型的圣火以来,一场前所未有的 AI 模型大战正式拉开序幕。

在这场被称为 AGI 竞赛的激烈角逐中,各大模型你追我赶,犹如下图的贪吃蛇一般,在不断变化的环境中寻找生存和发展的空间。

图/Twitter@FaisalS_io

回到本篇文章最核心的问题,那就是 Claude 3 凭什么在众多模型中脱颖而出?

性能固然是最核心的护城河。但在同等算力的情况下,性能的壁垒依旧是来自资源的持续投入,也就是传统的三板斧——资金、人才和训练数据集

作为 OpenAI 的“孪生”公司,Anthropic 的人才储备自然是不遑多让的,同时我们还经常看到其频繁的融资消息。而合成数据或许才是 Anthropic 的“秘密武器”。

先前提到,为了详尽介绍 Claude 3 的三款模型,Anthropic 发布了一份长达 42 页的技术报告。但有趣的是,报告中并未明确指出 Claude 3 的数据集来源。

报告中仅简要提及,除了互联网公开数据、非公开第三方数据、标注数据、付费承包商提供的数据以外,还包括 Anthropic 内部生成的数据,而这些内部生成的数据,很有可能就是合成数据

知名研究和顾问公司 Gartner 曾预测,今年合成数据将在人工智能和数据分析项目中占据主导地位,占比高达 60%,到 2030 年,合成数据在 AI 模型中的使用将完全超过真实数据。

众多研究及报告表明,人工智能领域中用于模型训练的数据资源正面临枯竭的风险。然而,数据的多样性和质量正变得日益关键,有助于提升模型的泛化能力和避免过度拟合。

此外,合成数据助力模型在数据匮乏环境下学习特定任务,对提高模型性能和适应多样化场景至关重要,其质量与可扩展性或将成为下一代 AI 模型性能差异的关键因素。

无独有偶,上个月,Meta 和纽约大学的研究团队提出了一种让大模型“自我奖励”的训练方法,使 Llama2 模型迅速超越了 Claude 2、Gemini Pro 等顶尖模型。

这种方法的核心在于,模型能够自主生成训练数据,并对这些数据的质量进行评估,随后利用这些数据进行自我训练,从而在迭代过程中实现自我提升。也就是俗称的 AI 训练 AI。

不久前,英伟达高级科学家 Jim Fan 也在 X 上表示:

很明显,合成数据将是下一个万亿级高质量训练数据的主要来源

我相信,大多数致力于大型语言模型研发的团队都清楚这一点。关键在于如何保持这种高质量,并防止数据质量过早地停滞不前。

Richard Sutton 在其《苦涩教训》一文中指出,只有学习和搜索这两种模式能够随着计算能力的提升而无限扩展。

这一观点在 2019 年他撰写该文时成立,在今天依然成立,我相信,直到我们实现通用人工智能(AGI)的那一天,这一观点仍将成立。

本文来自微信公众号:APPSO (ID:appsolution),作者:莫崇宇

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
Like (0)
Previous 2024年3月7日
Next 2024年3月7日

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日