100万用户在线“调戏”ChatGPT,都聊了些啥?

最近,艾伦人工智能研究所发布了WildChat数据集,包含100万个真实用户与ChatGPT的对话。

WildChat为对话AI研究提供了真实而丰富的数据。

从地域分布来看,WildChat的用户主要来自美国、俄罗斯、中国等国家,反映了ChatGPT在全球范围内的受欢迎程度。当AI变成“暴言制造机”:超10%对话惊现不当言论

WildChat数据集揭示了一个令人不安的事实:在真实的人机交互中,不当言论无处不在。

近年来,随着ChatGPT、Claude等大型对话模型相继问世,它们已经开始为数以百万计的用户提供服务。这些强大的AI助手可以与人进行流畅的多轮对话,完成写作、编程、分析等各种任务,展现出广阔的应用前景。

然而,目前公开的人机对话数据集大多由专家根据特定场景设计生成,与真实用户的自然交互存在差异,导致研究者难以深入了解用户与AI助手的实际交互模式。

最近,艾伦人工智能研究所发布了WildChat数据集,包含100万个真实用户与ChatGPT的对话。研究发现,WildChat涵盖编程、创意写作、数学等多样化主题,支持68种语言,并且用户提问和模型回复的平均长度超过现有数据集。

值得关注的是,其中超10%对话涉及不当言论,为研究AI应对恶意输入提供了样本。此外,在WildChat上微调语言模型,可显著提升模型的多轮对话能力。

WildChat为对话AI研究提供了真实而丰富的数据。相信基于该数据集的进一步研究,将有助于打造更智能、安全、贴近用户的AI对话系统,推动人机交互技术发展。

论文标题:WildChat: 1M ChatGPT Interaction Logs in the Wil

论文链接:https://arxiv.org/pdf/2405.01470

一、对话AI研究的“游戏规则改变者”

1. 不按套路出牌:野生数据打破AI对话固有模式

传统的人机对话数据集,如Alpaca、Dolly等,主要由专家根据特定场景设计问答对生成。这类数据虽然质量较高,但与真实用户的自然交互存在差距。用户在实际使用中的提问方式、语言风格、关注点往往更加多样化,而且对话往往是多轮互动,而非简单的一问一答。

WildChat的出现为对话AI研究带来了新的突破。这个数据集包含了100万个由真实用户与ChatGPT的多轮对话,总token数超过8亿,是目前最大的公开人机对话数据集之一。更重要的是,这些对话都是用户在实际使用中自然产生的,涵盖了编程、写作、数学、角色扮演等各种真实场景。

2. 百万对话68种语言,AI话痨环游“数据”世界

WildChat的一大亮点是其语言的多样性。数据集中包含了68种语言的对话,从主流的英语、汉语,到小语种如斯瓦希里语等,覆盖了全球各地用户。这为研究多语言对话AI提供了宝贵的资源。通过分析不同语言用户的交互特点,可以设计更加本地化、个性化的对话策略。

同时,WildChat在数据规模上也十分惊人。平均每个用户提问包含295个token,是Alpaca的15倍;每个AI回复则包含441个token,是Dolly的5倍。如此海量的数据,为训练更加强大的对话AI模型奠定了基础。下图展示了WildChat数据集和现有人机对话数据集之间的对比。

3. 模型大乱斗,中美俄网友花样“调教”ChatGPT

WildChat数据集涵盖了不同版本的ChatGPT模型生成的数据,其中GPT-3.5系列模型占比约76%,GPT-4系列模型占比约24%。这为研究不同模型在真实场景下的表现差异提供了基础。

从地域分布来看,WildChat的用户主要来自美国、俄罗斯、中国等国家,反映了ChatGPT在全球范围内的受欢迎程度。不同国家和地区用户的交互模式可能存在差异,WildChat为研究这些差异提供了数据支持。

此外,WildChat还展现了对话主题的多样性。通过对英文对话的第一轮用户提问进行分析,研究者发现辅助/创意写作是最常见的对话目的,占比高达61.9%,其次是分析/决策解释(13.6%)和编程(6.7%)。这一分布有助于我们理解真实用户对话AI的主要使用场景和需求偏好。

4. 话痨用户VS话唠AI:巅峰对决谁怕谁?GPT家族内战再度升级

当话痨用户遇上话唠AI,会擦出怎样的火花?WildChat数据集给出了答案。数据显示,WildChat中有近41%的对话为多轮互动,双方你来我往展开了一场场的巅峰对决。面对话痨用户的连环炮式提问,AI助手也毫不示弱,平均每次对话要生成441个token的回复,是用户提问长度的1.5倍,堪称话唠本唠。

这些高强度的多轮对话,不仅考验AI的知识储备,更考验其逻辑思维和语言组织能力。要想在唇枪舌剑的交锋中占得上风,AI助手必须时刻保持头脑清晰、对话连贯,还要懂得见招拆招,不落下风。否则,稍有不慎就可能被话痨用户抓住把柄,陷入尴尬的境地。

话痨之战背后还有GPT家族内讧的隐秘故事。统计显示,在WildChat的百万对话中,GPT-3.5系列模型占比高达76%,而GPT-4系列模型则以24%的份额紧随其后。随着时间推移,GPT-4的崛起势如破竹,到2024年1月其对话量已超过GPT-3.5。两大模型阵营的此消彼长,似乎预示着AI话痨界的新王即将诞生。而众多话痨网友,又将在这场家族内战中扮演怎样的角色呢?

不仅语言模型热衷于喋喋不休,就连用户也是来自五湖四海,语种别具一格。统计发现,WildChat包含了多达68种语言,远超其他同类数据集。除了英语占比过半外,中文和俄语用户也各自贡献了13%和12%的对话内容。如此丰富的多语言语料,让WildChat成为了名副其实的“小型联合国”。AI要想玩转全球,语言关可不能失守啊。

二、AI话痨全景图:狂飙突进or急刹猛打?

1. 当AI变成“暴言制造机”:超10%对话惊现不当言论

WildChat数据集揭示了一个令人不安的事实:在真实的人机交互中,不当言论无处不在。数据显示,WildChat中超过10%的对话涉及各类不当内容,包括仇恨、骚扰、色情、暴力等。这一发现敲响了AI安全的警钟,凸显了加强对话AI内容审核和风险控制的迫切需求。

更令人担忧的是,面对用户的恶意输入,当前的对话AI系统表现得十分脆弱。根据统计,当用户输入不当内容时,有6%的几率会导致ChatGPT也生成同样不恰当的回复。一旦放任这种情况,AI助手就有可能沦为“暴言制造机”,给用户带来难以预料的伤害。

那么,究竟是哪些因素导致了AI助手的堕落呢?通过对WildChat数据的深入分析,研究者发现了一些值得关注的模式。首先,匿名交互的环境似乎成为滋生不当言论的温床。在WildChat的对话中,超过88%的有害内容出现在未登录用户的匿名对话中。其次,一些热门的“越狱提示”在煽动AI生成有害回复方面发挥了重要作用。数据显示,使用诱导AI无视伦理限制的prompt,成功率高达60%以上。

面对这些棘手的问题,研究者提出了一系列应对建议。首先,要建立完善的内容审核机制,实时检测和过滤有害信息,将其扼杀在萌芽状态。其次,要加强对话AI的鲁棒性训练,提高其抵御恶意输入的能力,避免被用户轻易摆布。再者,平台方还需完善用户管理,对违规用户进行必要的限制和惩戒,营造更加健康的交互环境。

WildChat数据集虽然揭示了对话AI安全的诸多隐患,但也为相关研究指明了方向。通过分析这些真实的不当对话,研究者可以洞察有害内容的来源、传播和演变规律,为打造更加智能、安全的对话AI系统提供参考。未来或许有一天我们能教会AI明辨是非,让它抵御人性的恶意,成为一个值得信赖的好助手、好伙伴。

2. AI模型炼丹术:WildChat神药让Chatbot更上一层楼!

WildChat数据集不仅是研究者的金矿,也是AI模型的炼丹炉。想要打造一个出类拔萃的对话AI助手,少不了在真实数据的熔炉中淬炼和锤炼。论文作者正是看中了WildChat的这一潜力,尝试用其来微调语言模型,结果令人眼前一亮。

研究者们祭出了炼丹界的顶级法宝——Llama-7B模型,以WildChat为引,以海量计算力为炉,开始了一场大规模的炼丹打怪。他们在270万轮对话的蒸馏液中,以2e-5的学习率,反复淬炼3个epoch,只为锻造出最强的AI话痨。而他们的秘诀就在于OpenAI的独门绝学——对Llama使用“指令微调”。

功夫不负有心人,WildChat神功果然名不虚传。经过微调的Llama模型在开源对话能力评测MT-bench上一骑绝尘,将纯种的Llama甩出几条街。无论是整体对话质量、角色扮演,还是编程能力,WildLlama都全面碾压,展现出了惊人的实力增幅。

更让人惊喜的是,炼丹师傅还特意安排了WildLlama与各路AI高手的巅峰对决。面对Vicuna、Alpaca、Dolly等开源界的一线选手,WildLlama可谓神挡杀神佛挡杀佛。数据显示,其在多领域任务上取得了全面胜利,展现出了压倒性的优势。WildChat作为调参圣药的效果得到了充分验证。

这也启示我们,真实的人机交互数据是语言模型成长的养分,适量服用就能让你的Chatbot更上一层楼。未来相信会有越来越多的“炼丹师”将目光投向WildChat,在这个大数据的熔炉中淬炼出更多AI界的明日之星。

三、展望未来:个性化AI助手还远吗?

WildChat数据集为对话AI研究开启了一扇新的大门。它宛如一面魔镜,映照出了人机对话的百态:有话痨式的唇枪舌战,有多语种的异域风情,也有不当言论的暗流涌动。而这一切,都为我们理解用户需求、提升AI系统性能提供了宝贵的参考。

当然,WildChat的妙用远不止于此。它还是调教AI的神丹妙药,能让你的Chatbot更听话、更聪明、更全能。只要找准配方,用心炼制,一个不负众望的AI助手就指日可待。

不过,打造明星AI的路上也充满挑战。如何驯服话痨用户?如何制止不当言论?如何适应全球市场?这些都考验着研究者的智慧和技术。好在有了WildChat这样的利器,相信这些难题迟早会迎刃而解。

未来随着人机对话数据的不断积累和算法的日益精进,我们终会抵达AI对话的理想国度:在那里,每个人都能拥有一位妙语连珠、忠诚可靠的AI伙伴,工作、生活、娱乐乐在其中。而这一切,说不定就从WildChat的一场“话痨对决”悄然开始了。

本文来自微信公众号:夕小瑶科技说(ID:xixiaoyaoQAQ),作者:Richard

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
Like (0)
Previous 2024年5月13日
Next 2024年5月13日

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日