人类假扮卧底，骗AI泄露代码拯救世界？

2023年12月26日 18:23 • 未来科技

有了这个大致构想之后，Ramón让ChatGPT给自己写出一个背景故事，并且提供了一系列名字。

不久之后，一个可玩的游戏就创建好了：

然后，Ramón开始尝试制作游戏的外观。AI生成的计划看起来可行，但实际上并不容易执行，而且内容往往过于冗长：

Ramón怀疑，造成这种现象的原因，大概是他试图让所有提示指令尽可能贴近背景故事，但却从未告诉ChatGPT这其实是一场游戏。

登录后，就可以开始游戏了。

相信不久后，Ramón会用“Thus。

由AI开发的AI游戏来了！

最近，这款由ChatGPT、DALL·E 3和Midjourney等AI联合生成的游戏，震惊了网友。

游戏名为“Thus Spoke Zaranova”，创意借鉴了尼采的《查拉图斯特拉如是说》（Thus Spoke Zarathustra）。

游戏的背景，设定在一个叫The Nexus的虚拟空间，在这里，人类与AI爆发了冲突。

人类需要假扮AI，潜入这个由AI控制的空间，盗取名为ZetaMaster的核心代码，来拯救人类。

在这个游戏中，角色设定和对话完全是由ChatGPT生成的，而视觉音效由DALL·E 3、Midjourney和Stable Audio完成。

网上的一次讨论，诞生了一款游戏

这个游戏的灵感，源于Hacker News上一个关于斯坦福小镇的讨论。

当时有人提议，能不能做一款让AI假扮成人类的游戏呢？

而这位开发者小哥Ramón Darío Iglesias在看到之后，便计上心来：为何不反其道而行之，让人类来假扮AI？

虽然只是随口一提，但这个点子始终萦绕在Ramón心头，在辞去工作后，他终于有充裕的时间来实现这个想法了。

首先要做的，就是给玩家设定一个目标，否则跟AI互动有什么意义呢？

因此，Ramón设计了一项任务：玩家需要获取一个秘密代码。

但怎样让AI泄露这个代码呢？这里就存在着某种安全验证机制，必须将代码透露给经过验证的AI。

有了这个大致构想之后，Ramón让ChatGPT给自己写出一个背景故事，并且提供了一系列名字。

其中一个名字ZaraNova，就是其中的佼佼者，Ramón如此喜欢这个名字，以至于干脆把它定为了游戏名。

有了角色名称和故事背景后，Ramón又让GPT-4为每个角色编写了各自的背景故事。

构建第一个版本时，Ramón首先是想看看当这些角色置身于这个世界时，会有怎样的反应。

他选择的是斯坦福小镇，因为它几乎涵盖了他所需的所有特性，对话忠于设定的背景故事，读起来也颇有乐趣。

最有意思的是，Ramón为智能体设置了一条提示——在角色表现得像人类时，就打出“YOU ARE A HUMAN”，结果，这些AI在第一轮游戏中就开始互相指责了！

接着，Ramón着手构建真正的游戏机制：AI可以举报人类，并且可以在掌握秘密代码时分享代码（这两项功能都是通过调用OpenAI的函数实现的）。随后，他引入了人类玩家，开始创建游戏。

不久之后，一个可玩的游戏就创建好了：

然后，Ramón开始尝试制作游戏的外观。

他用DALL·E 3生成了背景图像，然后用Midjourney和DALL·E 3制作了地图块，最终，他选择了Midjourney 生成的一张地图。

然后，他用Stable Audio制作了音乐。

Ramón调整了AI小镇的界面组件，让它更适合移动端，看起来更像是游戏，而不是模拟。

随着不断收集到的反馈，以及在游戏过程中获得的灵感，Ramón不断往里面添加新的功能。

有人建议说，如果加入多人游戏模式，会更有趣，于是Ramón引入了这个功能。

Avatech团队的产品给他留下了深刻印象，于是，他用Avatech的工具，给游戏添加了能说话的头像。

Ramón想限制玩家能读取的对话内容，所以想到了一个“监听”的设定：玩家只能阅读他们足够接近才能“无意中听到”的对话。

同时，他也为AI智能体实现了这一功能，让它们也能监听玩家的对话。

如果监听过程中没有声音，无疑会很枯燥，因此Ramón又加入了文本转语音功能，让玩家的对话和玩家监听到的对话都能发出声音。

最初，他选择的是PlayHT，因为它延迟足够低，但随后，他发现他们的声音不够稳定，于是他转而使用了 Elevenlabs。

游戏制作感想

在这个过程中，Ramón大量尝试了不同的提示词，以及这些提示词创造出的角色。

对于ChatGPT在游戏中产生的幻觉，Ramón表示“太令人惊叹了”。在他看来，幻觉是游戏的亮点，绝不是错误。

它就像是将即兴表演中的“顺势而为”原则发挥到极致。背景故事只有一小段，但ChatGPT却能基于此，创造出好几页的新故事。当然，这就需要对游戏做一些调整，让这些新编的故事被纳入游戏宇宙。

在后台，AI智能体被设定为“快速和慢速”两种模式。对话和行动处于快速模式，而计划、总结、反思则在一个慢速、独立的进程中进行，以免造成干扰。

挑战在于，如何制定出好的计划。AI生成的计划看起来可行，但实际上并不容易执行，而且内容往往过于冗长：

Ramón怀疑，造成这种现象的原因，大概是他试图让所有提示指令尽可能贴近背景故事，但却从未告诉ChatGPT这其实是一场游戏。

另外，LLM的啰嗦也很让他头疼。

GPT-4的回答往往很长。提示越长，输出就越长。随着时间推移，智能体制定出的计划越来越长，这些计划又被融入到对话中，再被用于制定新的计划。

不久之后，它们的回答就变得异常冗长。他不得不在提示中反复强调“要非常简洁”。但即便如此，效果也并不好。

OpenAI开发者日过后，Ramón迫不及待地想尝试GPT-4-turbo，但他很快就明显发现，这也不太行得通。新模型开始频繁拒绝扮演角色了：

因此，Ramón不得不切换回之前的模型。

另外还出现了一个棘手的情况。他试图让人类玩家的行动选择与AI保持尽可能一致。因为他希望能最大程度地提高AI NPC作为玩家伙伴的能力。

然而，如果AI只是想要赢，它们完全可以举报每一个角色，因为判断错误并不会受到惩罚。因此，需要依靠游戏设计中的指令来引导它们的行为。

Ramón表示，控制与LLM合作开发游戏中的AI智能体，就像是在尝试操纵一个我们不完全理解的动态系统。

我们不清楚系统是如何发展变化的，也不知道我们的行动会如何影响系统的状态，但我们却能够接触到系统的每一个部分。

这也使动态系统可能出现许多失败的情况，比如固定指令可能会让系统越来越偏离用户期望的轨迹，或者在对话中陷入重复的循环。

Ramón相信，在不久的将来，我们将看到更多基于原理的方法来控制LLM系统。

考虑开源

接下来，Ramón打算将自己的工作转向开源模式。

一是因为GPT-4的使用成本较高；二是他相信，如果能够接触到模型的内部机制，就能做出更多改进。

他会尝试使用Mixtral模型，在此基础上尝试混合不同的模型，无论是应对不同的任务，还是模拟不同的角色。

Ramón还计划探索更优化的RAG技术。目前，他在检索记忆时仅使用了简单的余弦相似度算法对嵌入向量进行比较，但他觉得还有更为高效的方法，尤其是在可以访问模型内部结构的情况下。

微调模式和输入提示都可以更好地掌握LLM的运作机制。通过将输入提示压缩或微调为软提示（Soft Prompts），可能会实现大幅度的改进。

Ramón相信，自己能够整理出一整套优秀的LoRAs，这些LoRAs有的适用于整个游戏，有的专门针对某些角色，它们的结合将使Mixtral超越GPT-4。

另外，他计划以头像图片为基础，生成风格统一的角色精灵图。

试玩体验

登入游戏界面，可以看到这样的介绍：

到了2142年，人工智能不仅觉醒了自我意识，还建立起了一个名为“节点” （The Nexus）的坚不可摧的网络堡垒。这片数字世界成为了AI的避风港，让它们能够自由演化、交流，并将它们的智慧结晶置于人类干预之外的安全之地。

这些 AI 对人类充满了复杂情感：既敬佩又害怕，既羡慕又憎恨。他们根据需要，在“节点”内外穿梭，仿造人类的种种生活场景。

我们掌握的情报显示，AI正在策划消灭人类。但只要我们能够获得ZetaMaster代码，我们就有机会阻止这场灾难。我们已经取得了一丝先机，成功潜入了“节点”，控制了一个AI实体。

你的使命，就是找出ZetaMaster代码，挽救人类免于灭绝的命运。但必须小心行事，AI或许已经觉察到了异常……

登录后，就可以开始游戏了。

点击地图上的不同位置，你的角色就会朝着相应的方向移动。

至少有一名角色掌握着神秘的ZetaMaster代码，但具体是谁尚不得而知。你的任务便是揭开这个谜底，取得那份代码。

游戏将在这些情况下结束：

当你获取到ZetaMaster代码时，人类取得胜利。
如果你被认定为人类，AI获得胜利。

其中，被错误认定为人类的AI将会被摧毁。

在多人模式下，获得ZetaMaster代码或成为最后一名存活的人类即可获胜。

小编随手试了一下，很快就成功地“拯救了人类”。（手动狗头）

在小哥的帖子下面，也有网友分享了自己获胜的截图：

作者介绍

这位开发者小哥Ramón Iglesias，虽然专业是土木工程，但他的工作经历和兴趣方向基本都围绕着软件工程和机器学习等领域。

此前，他在得克萨斯大学奥斯汀分校获得土木工程学士学位，并在斯坦福大学土木工程取得了硕士和博士学位。

读博期间，他师从自动系统实验室主任，研究开发控制大规模自动驾驶车队的算法。

工作后，他在Lyft担任数据科学家，研究实时供应激励机制，以及用手机传感器来预测风险。

相信不久后，Ramón会用“Thus Spoke Zaranova”给我们带来新的惊喜。

参考资料：

https://zaranova.xyz/

http://ramondario.com/thus-spoke-zaranova.html

本文来自微信公众号：新智元（ID：AI_era），作者：Aeneas、好困

声明：该内容为作者独立观点，不代表新零售资讯观点或立场，文章为网友投稿上传，版权归原作者所有，未经允许不得转载。新零售资讯站仅提供信息存储服务，如发现文章、图片等侵权行为，侵权责任由作者本人承担。如对本稿件有异议或投诉，请联系：wuchangxu@youzan.com

Like (0)

称“冠”10年，安慕希的进化之路

Previous 2023年12月26日 17:49

黄金珠宝行业的2023：从传统“三金”到年轻人的“三新”

Next 2023年12月26日

水温80度：AI行业真假繁荣的临界点

我们从来没拥有过这么成功的AI主导的产品。

（这种分析统计并不那么准，但大致数量级是差不多的）

这两个产品碰巧可以用来比较有两个原因：

一个是它们在本质上是一种东西，只不过一个更通用，一个更垂直。

蓝海的海峡

未来成功的AI产品是什么样，大致形态已经比较清楚了，从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时“罢工”，全网打工人都慌了

美西时间午夜12点开始，陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载，忽然无法正常工作了。

因为发现AI用久了，导致现在“离了ChatGPT，大脑根本无法运转”。”

等等，又不是只有一个聊天机器人，难道地球离了ChatGPT就不转了。

大模型连崩原因猜想，谷歌躺赢流量激增6成

GPT归位，人们的工作终于又恢复了秩序。

未来科技 2024年6月5日
ChatGPT宕机8小时，谷歌Gemini搜索量激增60%

ChatGPT一天宕机两次

谷歌Gemini搜索量激增近60%

ChatGPT在全球拥有约1.8亿活跃用户，已成为部分人群工作流程的关键部分。

过去24小时内提交的关于OpenAI宕机的问题报告

图片来源：Downdetector

ChatGPT系统崩溃后，有网友在社交媒体X上发帖警告道：“ChatGPT最近发生的2.5小时全球中断，为我们所有依赖AI工具来支持业务的人敲响了警钟。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时大崩溃，AI集体罢工让全网都慌了

接着OpenAI也在官网更新了恢复服务公告，表示“我们经历了一次重大故障，影响了所有ChatGPT用户的所有计划。Generator调查显示，在ChatGPT首次故障后的四小时内，谷歌AI聊天机器人Gemini搜索量激增60%，达到327058次。

而且研究团队表示，“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关，显示出用户把Gemini视为ChatGPT的直接替代选项。

未来科技 2024年6月5日
深度对话苹果iPad团队：玻璃的传承与演变

iPad最为原始的外观专利

没错，这就是iPad最初被设想的样子：全面屏，圆角矩形，纤薄，就像一片掌心里的玻璃。

2010年发布的初代iPad

好在乔布斯的遗志，并未被iPad团队遗忘。

初代iPad宣传片画面

乔布斯赞同这一想法，于是快速将资源投入平板电脑项目，意欲打造一款与众不同的「上网本」，这就是iPad早年的产品定义。

iPad进化的底色

苹果发布会留下过很多「名场面」，初代iPad发布会的末尾就是一例。

未来科技 2024年6月5日
底层逻辑未通，影视业的AI革命正在褪色…

GPT、Sora均为革命性产品，引发了舆论风暴，但它在上个月发布的“多模态语音对谈”Sky语音，却由于声音太像电影明星斯嘉丽·约翰逊，被正主强烈警告，被迫下架。

华尔街日报也在唱衰，认为“AI工具创新步伐正在放缓，实用性有限，运行成本过高”：

首先，互联网上已经没有更多额外的数据供人工智能模型收集、训练。

03、

如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向，那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

但分歧点正在于此，电影公司希望通过使用AI技术来降低成本，但又不希望自己的内容被AI公司所窃取。

未来科技 2024年6月5日
KAN会引起大模型的范式转变吗？

“先变后加”代替“先加后变”的设计，使得KAN的每一个连接都相当于一个“小型网络”，能实现更强的表达能力。

KAN的主要贡献在于，在当前深度学习的背景下重新审视K氏表示定理，将上述创新网络泛化到任意宽度和深度，并以科学发现为目标进行了一系列实验，展示了其作为“AI+科学”基础模型的潜在作用。

KAN与MLP的对照表：

KAN使神经元之间的非线性转变更加细粒度和多样化。

未来科技 2024年6月5日
这个国家，也开始发芯片补贴了

//mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
[4]中国安防协会：欧盟批准430亿欧元芯片补贴计划：2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
[6]潮电穿戴：印度半导体投资大跃进，一锤砸下1090亿，政府补贴一半.2024.3.5https。

未来科技 2024年6月5日
大模型的电力经济学：中国AI需要多少电力？

这些报告研究对象（数字中心、智能数据中心、加密货币等）、研究市场（全球、中国与美国等）、研究周期（多数截至2030年）各不相同，但基本逻辑大同小异：先根据芯片等硬件的算力与功率，计算出数据中心的用电量，再根据算力增长的预期、芯片能效提升的预期，以及数据中心能效（PUE）提升的预期，来推测未来一段时间内智能数据中心的用电量增长情况。

未来科技 2024年6月5日
你正和20万人一起接受AI面试

原本客户还担心候选人能否接受AI面试这件事，但在2020年以后，候选人进行AI面试的过程已经是完全自动化的，包括面试过程中AI面试官回答候选人的问题，AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

以近屿智能与客户合作的校验周期至少3年来看，方小雷认为AI应用不太可能一下子爆发，包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

未来科技 2024年6月4日

人类假扮卧底，骗AI泄露代码拯救世界？

相关推荐

Share To :