AIGC工具实操:如何在工作生活中解决实际问题?

TA们也都能侃侃而谈:

ChatGPT:年轻用户(25-35岁):倾向于选择具有高科技功能和较新款型的车辆,例如小鹏P7i和极氪001。

这对TA们来说都是小事一桩,都能找到打错字的地方。

TA不仅发现了问题,还真正理解了这个程序是在干嘛,就像一个真正的编程老师。

这是我最初的人设:

这是优化后的人设,明显后者要丰富和清晰很多。

这就有点吓人了。

在工作流中,我增加了两个输入参数,出发日期和目的地。

上次谈了对AIGC产品的思考。最近忙于实操,用AI工具尝试解决工作生活中真实的课题,而不仅仅是写小作文画个插图。

测试对象包括 GPT3.5、GPT4、Kimi、通义千问、GEMINI、文心一言、字节豆包等等。

第一轮,报告整理

第一个课题是整理用研报告。通常一份用户访谈报告有3~5万字的笔录,要整理成结构性的访谈纪要。既要按不同类型的问题分类归纳,也要对用户人群分类统计偏好。处理时间少则5~6小时,多则要1~2天。

这轮表现最好的是Kimi和ChatGPT。

ChatGPT给我的感受,像是一个大学刚毕业的海归实习生,聪明,工作热情高,就是还处理不了太复杂的事情。常常需要点拨一下,一着急TA还会忍不住说英文。

例如用研报告中,有一段是主持人在询问受访者如何看待汽车的电驱配置。

GPT最初回答是:用户对此无明确提及。

我找到相关内容,扔给TA:

“ 主持人:没有想要四驱的?

主持人:两驱就够了?

1号受访人:四驱还更费电。”

相比受访人在其他问题上直接说喜欢不喜欢,这段对话略隐晦。

GPT的反馈是:

感谢您提供的信息。这段内容说明用户(1号受访者)对于电机驱动的具体偏好。他提到四驱相较于两驱会更费电。这表明他对于电机驱动的要求可能偏向于效率更高的两驱配置。我将这个观点更新到之前的表格中。

ChatGPT 能有此反应,让我又惊又喜。如果是用程序来识别用户回答,比如正则表达式,我不知道该怎么做。如果把GPT当人,那TA还是一个宝宝,但是真还不笨。

于是我主动跟GPT说,文章太长了你容易犯错,我们一段段来。GPT又表示了感谢。

Kimi的表现则可以说是惊艳。几万字的文本不到一分钟处理完,并且能给出清晰完整的归纳。

Kimi的问题在于,由于最近访问量大增,白天使用时会遇到“系统太忙”。

综合起来看,我还是选择跟GPT一段一段聊。

在基础整理完成后,我又分别让GPT4和Kimi回答附加题:

综合以上总结,你是否能发现某些共性?包括但不局限于性别,年龄段,收入,家庭背景方面,基于同样的用户属性,会有类似的购车选择和配置选择?

在这个访谈中,有没有哪些令你印象深刻的用户故事,或者让你出乎意料的用户言论或者选择?

TA们也都能侃侃而谈:

ChatGPT:年轻用户(25-35岁):倾向于选择具有高科技功能和较新款型的车辆,例如小鹏P7i和极氪001。这些用户通常更关注车辆的智能化功能和性价比。中年用户(35岁以上):更倾向于选择提供舒适驾驶体验和安全性的车型,例如智己L7和蔚来ET5。他们在选择车辆时会更多地考虑家庭用车的需求。

Kimi:2号用户选择智己L7部分是因为它提供了他在其他品牌中找不到的特定配置和功能,如副驾驶的专属显示屏,一键AI代驾等。这表明一部分用户在选择车辆时,不仅看重普遍的性能指标,更看重车辆能为自己提供的独特价值和定制化体验。

总的来说,长文本处理我推荐用Kimi和ChatGPT-4。前者适合大量文本快速整理,后者适合自己与GPT共读分析。

第二轮:代码审核

拿了一小段代码让各平台找bug。

这对TA们来说都是小事一桩,都能找到打错字的地方。

GEMINI 顺便给我上了一堂编程课,而Kimi则额外给出在函数命名和对齐风格上的修改意见,相当贴心。

然而我觉得比较神奇的还是ChatGPT。

TA不仅发现了问题,还真正理解了这个程序是在干嘛,就像一个真正的编程老师。

第三轮:专业话题探讨

我找各家平台聊智能座舱产品设计和华为IPD产品研发模式。

TA们都能给出详尽的内容。

GPT3.5由于不能联网,对于最新动态缺乏了解。GPT4相对比较有深度。

这里要赞一下COZE/扣子、百度APPBuilder等智能体平台,因为提供了提示词优化的功能,其给到的角色、技能、限定描述要比普通人丰富得多。

这是我最初的人设:

这是优化后的人设,

明显后者要丰富和清晰很多。

如果要找智能体拜师,用户很可能没法描绘角色和技能的具体内容,那一定要记得用一下优化。

第四轮:任务处理

这轮想试试Agents,完成一个更复杂的任务。

目前可以尝试的主要是三个,字节的COZE和扣子,百度的APPBuilder。

先尝试了一个生活话题,暑期打算去呼伦贝尔旅游,让智能体给我生成攻略。因为是国内旅游,所以只能在字节扣子和百度智能体之间选择。

我希望能把出行相关的内容都在一个对话框中查询完成,而不用在各个APP中跳来跳去。

首先,字节的插件更丰富。扣子可以提供 航班、酒店、天气、地图等,我还希望能看当地景点相关的视频和照片。这些扣子都能完成,目前就缺小红书,美团的插件,这样我就能一并了解餐饮信息了。

扣子上可用的插件:

但是在百度AppBuilder 上,能选用的插件很少,我只能挑出两个。

奇怪的是,居然连百度地图插件都没有!

而且试用下发现,TA的航班查询有误,CZ8521 可不是去呼伦贝尔的!

这就有点吓人了。看起来是那个插件执行不成功,然后大模型就自己发挥了……

果断弃用。

字节的扣子表现还不错。能查航班,酒店,也能出攻略。

美中不足的是,我让扣子智能体给出一揽子方案时,TA反应不过来。要分别问行程,航班,酒店,TA才能回答上来。

于是我打算用工作流。工作流可以执行一连串的任务,然后统一输出。

在工作流中,我增加了两个输入参数,出发日期和目的地;中间调用了两个插件,分别查询航班和酒店,再接入一个大模型进行内容优化,最后给到输出节点。

试运行的结果:

现在我将这个工作流加入到智能体中:

执行后的效果是:

航班信息对了,但是酒店信息(如家宾馆)在工作流的结果中就丢了;所在到了智能体那里又给了新的答案(喜来登)

以上只是一个非常原始的工作流。如果要真正打造适用我个人出行的导游智能体,还需要TA帮忙考虑:

饮食习惯:不吃辣;

带一个8岁的孩子,喜欢骑马;

可以体验下蒙古包,大多数情况下住在舒适型的连锁酒店;

……

理论上,工作流里面可以加入大模型、代码、知识库、选择器等,似乎可以把这些需求都满足了。

但是,我初步使用并不那么顺利。感觉并不像程序调用之间那么准确,而更像人与人工作时的口耳相传。从A到B的内容,B会再理解再发挥。

后来,我又用扣子的智能体模式给自己做一个分身,打造一个汽车智能化专家。我将自己的know-how输入到知识库中,然后让TA来回答问题。

这个要单独开一篇来讲了。

小结:

  • GPT4, Kimi,扣子是我测试下来感觉比较好用的。后面打算跟GPT4聊天,用Kimi整理文档,用扣子设计智能体;

  • 据说文心一言写官方讲话,通义千问写商务稿件很顺手,我这方面用得不多;GEMINI中规中矩,我通常是用来做对比和校验的;

  • 字节有生态。COZE可以作为Agents接入GPT4,扣子可以接入Kimi;Ta们各自连接中美的生态服务,目前来看是相对丰富的;

  • Kimi有运营。我加入了一个Kimi的用户群。群主会讲一些使用技巧,用户会分享一些使用心得。

  • 百度有销售……这是唯一一家急吼吼联系我谈付费的公司。

体会

镜像:

如果你只是玩大模型,那么大模型也会玩你,比如说问GPT林黛玉是如何倒拔垂杨柳的;TA也会像模像样编一个故事给你。

但是你如果认真跟TA讨论问题,大概率TA也会给到比较靠谱的回答。你问的有多深,TA回答就有可能到达什么水准。

事实上绝大多数人都还没有涉及到人类知识的巅峰,往往连平均水平都没有。

驯化:

与GPT等一起工作,虽然不需要编程,但是仍然需要有逻辑有条理的思维过程。

无论是与大模型展开讨论,安排报告总结,设计一个工作流,前提都是自己先要梳理思路。否则就跟数据管理的trash in, trash out 一样,fuzzy questions,fuzzy answers。

特别是当我在建设自己分身时,要有意识地去整理自己的观点,输入到知识库中。在玩大模型之前,我可没这么干过,大部分在我脑子里,少数记录了简短的笔记。

但现在为了能让智能体识别到我的内容,我首先要输入内容,其次是要将内容可读性变得对智能体足够“友好”。

我意识到,整理知识库的过程,其实也是我被大模型驯化的过程。

连接:

看大模型相关的文章,讨论的太过于技术底层,普通人完全不理解;而对话框式的简单应用,又太容易让普通人把TA当一个玩具来使用。

现在应用最多的应该还是程序员,Copilot的编程辅助已经很普及了。但是距离连接普通人还很远,也许一年以后,大家能像使用邮箱或者美图秀秀那样去使用智能体。

商业模式:开源 to B,闭源 To C,最流行的大约是混合模式

未来大模型公司比如openAI 会是电厂;像字节扣子这样的应用平台是电器公司。用户最终买的是电器,当然要识别是110V还是220V,是直流还是交流。

现在在争闭源模型厉害还是开源模型厉害,我觉得其实意义不大。

因为两者的应用场景不一样。企业一定会有自己的私有数据和内容,不愿意放到公开环境下,所以开源模型本地化部署的市场一定存在。既然安排了私有数据,企业肯定希望精准采用自己的领域知识,那就是更偏RAG的事实查找,在有限范围内发散。因此对模型能力要求不会那么高。

一般性的十万个为什么可以直接去大模型平台上查找答案。大平台要拼模型,拼算力,拼知识面(数据)

Google和百度现在的搜索方式,将受到严重冲击。

进一步推导,各类服务商可以采用开源模式进行本地化部署,利用私有数据和内容生产出自有服务。再把自己的服务链接到公共平台,被其他服务或智能体调用,按调用次数收费。

打个比方,就像每家可以接电来用,也可以自己搞太阳能发电,然后输出到电网中。

每个节点都在贡献插件、知识库、工作流和智能体。按使用的数量和程度为知识服务付费,就像用水用电一样。

这样的混合模式或许会是最流行的。

AIGC 产品:

以后可能不再有“产品”这样的概念。

就是用自然语言召唤服务。

而且这些服务内容比现在的软件,APP会更长尾,更多元,要适应到每一个人的需求。

就像我去搭建一个我自己的导游智能体,我可以自己组织想要的内容,以及对内容的要求。

这比现在APP上的“千人千面”要更高一个维度。

个人价值和风险:

作为个人,关键不在于懂不懂大模型,而是知道大模型发展趋势后,尽快培养自己的独有能力。今天来自地域门槛,行业门槛,语言门槛而收获的红利,未来会越来越难保持。

个人价值就是对自己知识管理能力的提升,好奇心,想象力,正确提问的能力,以及将独有知识打包成服务的能力;

风险在于 AI底层能力跃迁后对原有人力的平替,以及在AI服务驱动下,人与人之间知识差异化的竞赛。

互联网30年。当初做实验是否能在互联网上活24小时;后来做实验是否能离开手机活24小时。

当年我们说世界是平的,未来是湿的;后来发现世界是无数口井,井底是聒噪的群蛙。

AI真正进入生活不到一年,来日方长。

本文来自微信公众号:橙竹洞见(ID:gh_013fe5eb0b97),作者:竺大炜

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
Like (0)
Previous 2024年4月25日 10:12
Next 2024年4月25日 10:23

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日