AI企业疯狂“卷”文本

月之暗面公司相关负责人向记者强调,与其他公司的产品不同,Kimi的长文本是无损压缩技术的长上下文,RAG是有损压缩技术。

他也提醒说,长文本只是大模型的一个技术特色,除了长文本之外,大模型还有高效训练、多模态、模型压缩、安全伦理等多方面的问题需要研究,“今天大家盯着长文本是好事,但也不能忘了其他,做好大模型需要多面开花。

2024年AI(人工智能)大模型行业的第一场竞争热潮,从长文本开始。

在AI新锐月之暗面公司宣布大模型产品Kimi已经可以支持200万字无损上下文(Long Context)之后,360、阿里巴巴、百度纷纷跟上。百度文心一言宣布即将免费开放200~500万长文本能力,阿里通义千问直接上线1000万字长文本,360也官宣内测500万字长文本。

大模型的技术方向有多种,长文本只是其中一种,它是一个相对于短文本而言的概念。此前用户在通义千问、文心一言等语言模型的对话框只能输入几千字,现在能输入几百万字甚至上千万字。

不论长文本竞争得有多激烈,各大模型公司有多么全情投入,一个首先存在的疑问是:为什么是长文本?一位大模型公司人士直言,这是最近业内讨论的热点,但长文本是否值得全力投入,目前并没有定论。

长文本热潮,与市场行情有关。推出200万字无损上下文后,Kimi一度爆火,带动华策影视、掌阅科技、中广天择等多个概念股涨停。此前大众鲜有了解的创业公司月之暗面,站在了聚光灯下。“如果你是其他大模型公司的产品经理,你会不会眼红?”担任过经纬创投副总裁的投资人庄明浩说,当下很多公司其实并不知道如何让大模型从技术走向产品,既然Kimi用长文本验证了一条路,并且得到了超出预期的正反馈,其他公司自然也可以效仿。

为什么是长文本

长文本进入大众视野,始于今年3月初,当时月之暗面旗下的Kimi爆火,特色就是长文本。

与市场上其他大模型产品相比Kimi的区别是,它鼓励用户先发进去一个文档或链接,用户可以根据文档或链接中的内容展开问答。  

月之暗面公司相关负责人告诉记者,这是公司成立之初就定下的策略:“既然要做,总要做点不一样的。”月之暗面公司创始人杨植麟在此前的采访中也多次提到,长文本是实现通用人工智能(AGI)的第一步。

月之暗面于去年3月成立,Kimi于去年10月上线,可以上传的文档最多是20万字。3月18日,Kimi宣布已支持200万字上下文输入。对比来看,目前文心一言的文本上限约2.8万字,OpenAI(美国大模型公司)需要付费的GPT-4Turbo(OpenAI最新一代产品),上下文窗口为12.8万tokens(约50万个汉字)

Kimi鼓励用户上传文档和链接,直观体现长文本能力,让用户有直接感知,进而引发讨论。这些与其他大模型产品不一样的地方,让Kimi迅速出圈。随后其他大模型公司跟进长文本赛道。

在Kimi出圈之前,今年Sora(OpenAI旗下文生视频大模型产品)也火爆一时。为什么国内大模型公司没有卷Sora所代表的文生视频,却在3月卷起了长文本?

“因为Sora难啊。”庄明浩说。

一位大模型公司技术人士告诉记者,长文本在技术层面难度并不算高,需要的算力不像预训练那么多,所以很多公司都能负担得起。并且,国外大模型公司已经“卷”过了一轮长文本,长文本的核心技术在开源层面做得比较好,并没有技术封锁。

“如果一个国内的大模型公司做不了长文本,我们可能会认为他们的技术不过硬。”该技术人士说。  

既然并无技术难度,为何360、百度、阿里此前并未推出长文本功能,而是在Kimi推出之后突然跟上。对于此现象,记者曾向360和阿里通义千问方面进行了解,但未获得回复。不过,通义千问此前提到,其长文档处理能力,是通义千问模型能力持续提升、模型功能反复打磨的结果。

记者询问了其他几家大模型公司对于长文本功能的上线规划,他们都提到,自己的产品有长文本能力。对于是否会上线上百万长文本的问题,他们没有回答。

谁在用长文本

华东一家电子公司技术负责人最近一直在用AI大模型的长文本功能,每天能用几十次。

去年10月,经同行推荐,上述技术负责人接触到Kimi的长文本功能。在电子行业,经常会有专业性很强,且长达几万字以上的文档需要处理,文档中有复杂的数据格式,阅读费时费力。之前他主要使用ChatGPT帮忙阅读文档,ChatGPT免费版支持的最长文档是4kb(4千字节,约2000个汉字),他不得不把长文档拆分成很多小段,使用感受并不好。国外另一款产品Claude3(美国人工智能初创公司Anthropic的大模型产品)支持几万字长文本,但每天免费次数只有20次。

Kimi支持20万字上下文阅读,目前正在内测200万字的上下文功能。上述技术负责人的感受是,长文本的确很有用。之前做技术研究时,遇到其他领域的问题,他经常需要问公司同事。现在他把公司内部文档扔进对话框,就能立刻得出准确答案。“它能准确、高效地总结出完整的核心思想。”上述技术负责人说,对于电子行业,内容完整很重要,非长文本产品实现不了。

经常使用长文本后,他很感慨,以前还是把AI的能力想小了,“你不能只把AI当做简单的聊天工具,那样就太大材小用了。它真的能在工作、生活中帮到你,能在各行各业中应用。”

通义千问方面称,长文本能力是金融、法律、科研、医疗、教育等领域专业人士的刚需。这些人士可通过通义千问快速读研报、分析财报、读科研论文、研判案情、读医疗报告、解读法律条文、分析考试成绩、总结深度文章。“长文本的价值不容小觑。”AI上市公司创新奇智首席技术官张发恩带领产研团队研发了面向行业的垂类大模型。他最近也在关注大模型长文本技术,并坚信它是一个非常有用的技术。如果要充分挖掘大模型的潜力,用户需输入充足的信息,在这方面,长文本技术的引入显得尤为关键。

他也提到,大模型长文本的技术原理不算复杂,但想做好很难。常见的现象是,用户输入长文本,并针对输入的内容进行了提问,但做得不好的大模型会遗漏关键信息,导致回答质量不高。

真假与争议

多家公司宣布上线长文本后,一些质疑的声音也出现了。质疑者认为后来者上线的并不是真正的长文本技术,而是RAG技术。RAG是一种被称为检索增强生成的技术,这种技术可以从文档中搜索出相关内容,并把这些内容给到大模型做推理。

月之暗面公司相关负责人向记者强调,与其他公司的产品不同,Kimi的长文本是无损压缩技术的长上下文,RAG是有损压缩技术。他举例说,比如读一本100万字的书,Kimi的长文本技术会逐字逐句挨个读,读完100万字再归纳总结做分析。RAG技术可能只读了这本书每一页的第一行,就去归纳总结做分析。在最终呈现的效果上,无损压缩技术输出的内容更真实、全面、有效。

“如果是真正的无损压缩技术,现在应该没有公司愿意给用户免费使用500万字或1000万字的长文本。”上述相关负责人说,1000万字长文本情景下,发布一个简单的对话任务,半天时间才能收到结果,机器推理成本也翻了几十倍。

另一方面,文本长度是不是越长越好,目前也并没有形成共识。“去年大模型公司都在卷参数,从千亿卷到万亿,意义并不大。”庄明浩称,今年大模型开卷的文本长度,可能也没有太大意义,“谁会经常把1000万字的文本喂给大模型?”

上述电子公司技术负责人告诉记者,他不准备使用有1000万字长文本的产品,现在的200万字足够满足工作需求了。

张发恩觉得,长文本可以卷,但卷的视野可以从文本拓展到多模态内容。长文本的真正含义应该是Long Context Window(长上下文窗口)。今年2月,在Sora发布的同一天,谷歌发布了最新一代多模态大模型Gemini1.5Pro,它能把一段几分钟长度的图书馆书架的视频放进对话框,并整理视频中出现的所有图书的名字。张发恩认为,这也是Long Context Window的能力,值得重视。

他也提醒说,长文本只是大模型的一个技术特色,除了长文本之外,大模型还有高效训练、多模态、模型压缩、安全伦理等多方面的问题需要研究,“今天大家盯着长文本是好事,但也不能忘了其他,做好大模型需要多面开花。”

本文来自微信公众号:经济观察报 (ID:eeo-com-cn),作者:任晓宁

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
(0)
上一篇 2024年4月19日
下一篇 2024年4月20日

相关推荐

  • 数字人出海背后,隐藏哪些商业机密?

    某上市公司旗下数字人营销视频创作工具负责人Dour介绍,曾有几个客户向其反馈了极为惊人的数据:使用数字人,一个季度可以完成高达1700~2000小时的直播时长,相当于平均每天直播17个小时。

    在亿邦的调研中,一个常被各种数字人服务商所提及的宏伟设想,或许可以更加具象地展现这门方兴未艾的技术究竟有着多大的想象空间:

    数字人的远期定位,并不是抢“真人”的饭碗,而是在算力爆炸、AI永续迭代的背景下,重构整个电商领域的信息呈现方式。

    未来科技 7小时前
  • 迪士尼想用 AI 改造娱乐业,但它准备好了吗?

     
    乐园:迪士尼的技术试验场
     
    迪士尼乐园不仅是“世界上最快乐的地方”,也是迪士尼前沿技术的实验场。
     
    马克·谢弗曾在人民快运航空和大陆航空从事收入管理工作,他来到迪士尼后,领导一个由 250名员工组成的数据分析团队,对迪士尼乐园的各项业务进行动态定价,并推出了。
     
    2022年,迪士尼推出了人工智能工具。
     
    迪士尼的人工智能困境
     
    1928年,迪士尼推出了世界上首部声画同步动画片《汽船威利》。

    未来科技 7小时前
  • 这个世界变得更精彩,但好像也更无聊了

    那是一个下午,办公室的咖啡机坏了,我在楼下买了一杯厚乳拿铁,上楼后发现同事都出去吃午饭了,我一个人坐在窗边的工位上,升起的阳光正好覆盖在了我的电脑屏幕上,浏览器的文字都变得模糊起来,我眯起眼睛,试图看清屏幕上的字,依稀能看到我的代码编辑器,正在用。

    我是热爱并且积极拥抱这些最新最酷的技术的人之一,但我猛然想到,那些不那么乐意拥抱新技术的人,就一定要被淘汰,这也是让人挺不舒服的一件事。

    未来科技 7小时前
  • 工业AI大模型落地应用的最新实践,都在这里

    上述问题,也正是我们即将在“大鲸AI闭门会·制造专场”上深入探讨的焦点!
     
    6月20日,虎嗅智库将在苏州举办“2024大鲸AI闭门会·工业制造专场”,汇聚信通院、美的、隆基绿能、施耐德电气等权威机构、头部甲方企业、工业智能企业的创新者,独家完整呈现甲方头部完整AI应用落地案例,并将围绕、“智能生产与排程”、“质量分析与数字模拟”、“人机协作与智能制造”等话题,共同探寻AI大模型在工业智造领域的落地应用。

    未来科技 8小时前
  • 果然,美国限制AI出口立法的进程又进一步

    Review(ID:Internet-law-review),作者:互联网法律评论,题图来自:视觉中国

    当地时间2024年5月22日,美国众议院外交事务委员会以压倒性多数,通过了一项限制AI模型出口的法案。

    只是从功用上对“涵盖的人工智能系统”进行了一定的概括,不过,这样的“新定义”基本上涵盖了“任何人工智能系统、软件或硬件”,只要这些物项满足以下条件:

    侵蚀美国国家安全或外交政策的方式。

    未来科技 9小时前
  • 微软Build:GPT-4o重塑Windows,奥特曼剧透新模型

    本文来自微信公众号:APPSO (ID:appsolution),作者:超凡、王萌、崇宇,题图来自:微软Build 今天凌晨,微软带来了一系列重磅产品,一口气发布了50多项更新。 …

    未来科技 9小时前
  • 产业政策的迷失:日本AI败局启示

    本来,日本在神经网络和深度学习方面有很强的底蕴,但在全面为第五代计算机服务的背景下,全社会的资源都在向专家系统这一路径倾斜,甚至连福岛邦彦这样的大佬都很难申请到需要的经费。而当第五代计算机的梦想在二十世纪九十年代最终破裂后,日本干脆削减了对整个AI学科的资金扶持,这就导致了最优秀的人才根本不愿意进入这个领域。

    一旦有日本的AI企业率先从类似的领域发起突围,并真正实现了盈利,那么日本全社会对AI兴趣的低迷就会被扭转,人才也会陆续重新回到这个领域。

    未来科技 9小时前
  • AI已经擅长欺骗人类,其阴暗面令人震惊

    从娱乐至生活,AI欺骗在扩散

    诚然,游戏无疑是一个相对可控的环境,我们可能倾向于认为,这种AI欺骗行为的危害并不严重。

    而且,这种欺骗能力并非仅存在于模型规模较小、应用范围较窄的AI系统中,即便是大型的通用AI系统,比如GPT-4,在面对复杂的利弊权衡时,同样选择了欺骗作为一种解决方案。

    AI欺骗的系统性风险

    毋庸置疑,一旦放任不管,AI欺骗给整个社会带来的危害是系统性和深远的。

    未来科技 9小时前
  • 第一个iPhone刺客,可能要倒下了

    //www.cnet.com/tech/mobile/humane-maker-of-wearable-ai-pin-is-exploring-a-sale-report-says/
    https。//techcrunch.com/2024/05/22/humane-the-creator-of-the-700-ai-pin-is-reportedly-seeking-a-buyer/。

    未来科技 9小时前
  • 第一波收割完的AI创企要跑路了?6年来仅做了一款产品

    创办Humane之前,Chaudhri曾在苹果公司担任设计师长达20年,据报道于2017年被苹果公司解雇,Bongiorno在苹果公司工作了8年,担任iOS和macOS的软件工程总监,并于2016年离职。

    Humane与微软的合作主要是体现在其利用微软的云基础设施搭建技术平台,同时,Humane也将OpenAI的技术集成到其设备中。

    未来科技 10小时前