卷完参数后,大模型公司又盯上了“长文本”?

国外,OpenAI经过三次升级,GPT-3.5上下文输入长度从4千增长至1.6万token,GPT-4从8千增长至3.2万token(token:模型输入和输出的基本单位)。
月之暗面创始人杨植麟告诉光锥智能,在技术研发过程中,其团队发现正是由于大模型输入长度受限,才造成了许多大模型应用落地的困境,这也是月之暗面、OpenAI等一众大模型公司在当下聚焦长文本技术的原因所在。

文丨郝 鑫

编丨刘雨琦

4000到40万token,大模型正在以“肉眼可见”的速度越变越“长”。

长文本能力似乎成为象征着大模型厂商出手的又一新“标配”。

国外,OpenAI经过三次升级,GPT-3.5上下文输入长度从4千增长至1.6万token,GPT-4从8千增长至3.2万token(token:模型输入和输出的基本单位);OpenAI最强竞争对手Anthropic一次性将上下文长度打到了10万token;LongLLaMA将上下文的长度扩展到25.6万token,甚至更多。

国内,光锥智能获悉,大模型初创公司月之暗面发布智能助手产品Kimi Chat可支持输入20万汉字,按OpenAI的计算标准约为40万token;港中文贾佳亚团队联合MIT发布的新技术LongLoRA,可将7B模型的文本长度拓展到10万token,70B模型的文本长度拓展到3.2万token。

据光锥智能不完全统计,目前,国内外已有OpenAI、Anthropic、Meta、月之暗面等一大批顶级的大模型技术公司、机构和团队将对上下文长度的拓展作为更新升级的重点。

毫无例外,这些国内外大模型公司或机构都是资本市场热捧的“当红炸子鸡”。

OpenAI自不必说,大模型Top级明星研究机构,斩获投资近120亿美元,拿走了美国生成式AI领域60%的融资;Anthropic近期风头正盛,接连被曝亚马逊、谷歌投资消息,前后相差不过几天,估值有望达到300亿美元,较3月份翻五番;成立仅半年的月之暗面出道即巅峰,一成立就迅速完成首轮融资,获得红杉、真格、今日资本、monolith等一线VC的押注,市场估值已超过3亿美元,而后,红杉孵化式支持,循序完成两轮共计近20亿元融资。

大模型公司铆足劲攻克长文本技术,上下文本长度扩大100倍意味着什么?

表面上看是可输入的文本长度越来越长,阅读能力越来越强。

若将抽象的token值量化,GPT-3.5的4000 token最多只能输入3000个英文单词或者2000个汉字,连一篇公众号文章都难以读完;3.2万token的GPT-4达到了阅读一篇短篇小说的程度;10万token的Claude可输入约7.5万个单词,仅22秒就可以阅读完一本《了不起的盖茨比》;40万token的Kimi Chat支持输入20万汉字,阅读一本长篇巨著。

另一方面,长文本技术也在推动大模型更深层次的产业落地,金融、司法、科研等精艰深的领域里,长文档摘要总结、阅读理解、问答等能力是其基本,也是亟待智能化升级的练兵场。

参考上一轮大模型厂商“卷”参数,大模型参数不是越大就越好,各家都在通过尽可能地扩大参数找到大模型性能最优的“临界点”。同理,作为共同决定模型效果的另一项指标——文本长度,也不是越长,模型效果就越好。

有研究已经证明,大模型可以支持更长的上下文输入与模型效果更好之间并不能直接画上等号。模型能够处理的上下文长度不是真正的关键点,更重要的是模型对上下文内容的使用。

不过,就目前而言,国内外对于文本长度的探索还远没有达到“临界点”状态。国内外大模型公司还在马不停蹄地突破,40万token或许也还只是开始。

为什么要“卷”长文本?

月之暗面创始人杨植麟告诉光锥智能,在技术研发过程中,其团队发现正是由于大模型输入长度受限,才造成了许多大模型应用落地的困境,这也是月之暗面、OpenAI等一众大模型公司在当下聚焦长文本技术的原因所在。

比如在虚拟角色场景中,由于长文本能力不足,虚拟角色会忘记重要信息;基于大模型开发剧本杀类游戏时,输入prompt长度不够,则只能削减规则和设定,从而无法达到预期游戏效果;在法律、银行等高精度专业领域,深度内容分析、生成常常受挫。

在通往未来Agent和AI原生应用的道路上,长文本依然扮演着重要的角色,Agent任务运行需要依靠历史信息进行新的规划和决策,AI原生应用需要依靠上下文本来保持连贯、个性化的用户体验。

杨植麟认为,无论是文字、语音还是视频,对海量数据的无损压缩可以实现高程度的智能。“无损压缩或大模型研究的进展曾极度依赖‘参数为王’模式,该模式下压缩比直接与参数量相关。但我们认为无损压缩比或大模型的上限是由单步能力和执行的步骤数共同决定的。其中,单步能力与参数量呈正相关,而执行步骤数即上下文长度。”

如果形象化地去理解这句话,“无损压缩”就像是一位裁缝,需要把一块完整的布裁剪成合身的衣服。一开始这位裁缝的思路是要去准备各种尺寸的裁剪模板(参数),模板越多,裁剪出来的衣服也越合身。但现在的新思路是,即使模板不多,只要反复裁剪、量体裁衣也能使衣服极致合身。

同时,事实已经证明,即使是千亿参数的大模型也无法完全避免幻觉和胡说八道的问题。相比于短文本,长文本可以通过提供更多上下文信息和细节信息,来辅助模型判断语义,进一步减少歧义,并且基于所提供事实基础上的归纳、推理也更加准确。

由此可见,长文本技术既可以解决大模型诞生初期被诟病的一些问题,增强一些功能,同时也是当前进一步推进产业和应用落地的一环关键技术,这也从侧面证明通用大模型的发展又迈入了一个新的阶段,从LLM到Long LLM时代。

透过月之暗面的新发布的Kimi Chat,或许能一窥Long LLM阶段大模型的升级功能。

首先是对超长文本关键信息提取、总结和分析的基础功能。如输入公众号的链接可以快速分析文章大意;新出炉的财报可以快速提取关键信息,并能以表格、思维导图等简洁的形式呈现;输入整本书、专业法律条文后,用户可以通过提问来获取有效信息。

‍在代码方面,可以实现文字直接转化代码,只要将论文丢给对话机器人,就能根据论文复现代码生成过程,并能在其基础上进行修改,这比当初ChatGPT发布会上,演示草稿生成网站代码又进了一大步。

在长对话场景中,对话机器人还可以实现角色扮演,通过输入公众人物的语料,设置语气、人物性格,可以实现与乔布斯、马斯克一对一对话,国外大模型公司Character AI已经开发了类似的AI伴侣应用,且移动端的DAU远高于ChatGPT,达到了361万。在月之暗面的演示中,只需要一个网址,就可以在Kimi Chat中和自己喜欢的原神角色聊天。

以上的例子,共同说明了脱离简单的对话轮次,类ChatGPT等对话机器人正在走向专业化、个性化、深度化的发展方向,这或许也是撬动产业和超级APP落地的又一抓手。

杨植麟向光锥智能透露,不同于OpenAI只提供ChatGPT一个产品和最先进的多模态基础能力,月之暗面瞄准的是下一个C端超级APP:以长文本技术为突破,在其基础通用模型基础上去裂变出N个应用。

“国内大模型市场格局会分为 toB 和 toC 两个不同的阵营,在 toC 阵营里,会出现super-app,这些超级应用是基于自研模型做出来的。”杨植麟判断道。

不过,现阶段市面上的长文本对话场景还有很大的优化空间。比如有些不支持联网,只能通过官方更新数据库才获得最新信息;在生成对话的过程中无法暂停和修改,只能等待对话结束;即使有了背景资料和上传文件支持,还是偶尔会出现胡说八道、凭空捏造的情况。

长文本的“不可能三角”困境

在商业领域有一组典型的价格、质量和规模的“不可能三角”,三者存在相互制约关系,互相之间不可兼得。

在长文本方面,也存在文本长短、注意力和算力类似的“不可能三角”。

这表现为,文本越长,越难聚集充分注意力,难以完整消化;注意力限制下,短文本无法完整解读复杂信息;处理长文本需要大量算力,提高成本。

追本溯源,从根本上看这是因为现在大部分模型都是基于Transformer结构。该结构中包含一项最重要的组件即自注意力机制,在该机制下,对话机器人就可以跨越用户输入信息顺序的限制,随意地去分析各信息间的关系。

但与之带来的代价是,自注意力机制的计算量会随着上下文长度的增加呈平方级增长,比如上下文增加32倍时,计算量实际会增长1000倍。

一些发表的论文给予了佐证:过长的上下文会使得相关信息的占比显著下降,加剧注意力分散似乎成为了不可避免的命运。

这就构成了“不可能三角”中的第一组矛盾——文本长短与注意力,也从根本上解释了大模型长文本技术难以突破的原因。

从“卷”大模型参数到现在,算力一直都是稀缺的资源。OpenAI创始人Altman曾表示,ChatGPT-4 32K的服务无法立马完全向所有用户开放,最大的限制就在于GPU短缺。

对此,杨植麟也称:“GPU是一个重要的基础,但还不光是GPU的问题。这里面是不同因素的结合,一方面是GPU,一方面是能源转换成智能的效率。效率进一步拆解可能包含算法的优化、工程的优化、模态的优化以及上下文的优化等等。”

更为重要的是,在大模型实际部署环节,企业端根本无法提供很大的算力支持,这也就倒逼厂商无论是扩大模型参数还是文本长度,都要紧守算力一关。但现阶段要想突破更长的文本技术,就不得不消耗更多的算力,于是就形成了文本长短与算力之间的第二组矛盾。

腾讯NLP工程师杨雨(化名)表示:“大模型长文本建模目前还没有一个统一的解决方案,造成困扰的原因正是源于Transformer自身的结构,而全新的架构已经在路上了。”

当前无论从软件还是硬件设计,大部分都是围绕Transformer架构来打造,短时间内新架构很难完全颠覆,但围绕Transformer架构产生了几种优化方案。

杨雨对光锥智能说,“目前主要有三种不同的解决方案,分别为借助模型外部工具辅助处理长文本,优化自注意力机制计算和利用模型优化的一般方法。”

第一种解决方案的核心思路就是给大模型开“外挂”。主要方法是将长文本切分为多个短文本处理,模型在处理长文本时,会在数据库中对短文本进行检索,以此来获得多个短文本回答构成的长文本。每次只加载所需要的短文本片段,从而避开了模型无法一次读入整个长文本的问题。

第二种解决方案是现在使用最多的方法,主要核心在于重新构建自注意力计算方式。比如LongLoRA技术的核心就在于将长文本划分成不同的组,在每个组里进行计算,而不用计算每个词之间的关系,以此来降低计算量,提高速度。

前两种模式也被杨植麟称之为“蜜蜂”模型,即通过对检索增强的生成或上下文的降采样,保留对部分输入的注意力机制,来实现长文本处理的效果。

据杨植麟介绍,在优化自注意力机制计算还存在一种方式,也被其称之为 “金鱼”模型。即通过滑动窗口等方式主动抛弃上文,以此来专注对用户最新输入信息的回答。这样做的优点显而易见,但是却无法跨文档、跨对话比较和总结分析。

第三种解决方案是专注于对模型的优化。如LongLLaMA以OpenLLaMA-3B和OpenLLaMA-7B 模型为起点,在其基础上进行微调,产生了LONGLLAMAs新模型。该模型很容易外推到更长的序列,例如在8K token上训练的模型,可以很容易外推到256K窗口大小。

对模型的优化还有一种较为普遍的方式,就是通过通过减少参数量(例如减少到百亿参数)来提升上下文长度,这被杨植麟称之为 “蝌蚪”模型。这种方法会降低模型本身的能力,虽然能支持更长上下文,但是任务难度变大后就会出现问题。

长文本的“不可能三角”困境或许暂时还无解,但这也明确了大模型厂商在长文本的探索路径:在文本长短、注意力和算力三者之中做取舍,找到最佳的平衡点,既能够处理足够的信息,又能兼顾注意力计算与算力成本限制。

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
(0)
上一篇 2023年10月12日
下一篇 2023年10月12日

相关推荐

  • 抖音不再陪小杨哥“疯狂”

    就在抖音电商峰会一周前,快手一哥辛巴炮轰小杨哥,指责其在质检、售后、赔偿态度等方面存在问题,模仿辛选的商业模式,以及小杨哥此前销售的一些产品如茅台酒、梅菜扣肉等存在质量问题,如果小杨哥不处理,他将用一亿元替小杨哥进行赔付。
    在2022年9月的抖音电商作者峰会上,刚转型直播带货一年的小杨哥,第一次获得了抖音电商的卓越个人奖。
    在短视频时代,抖音成就了小杨哥,正如小杨哥感谢抖音那般,“它具有很强的开放性和包容性,它给每一个人都提供平等展示自我的机会”,小杨哥也为抖音带来了很多用户,高峰时期小杨哥抖音粉丝量超过了1.2亿。

    2024年9月20日
  • 科隆新材IPO:业绩波动、内控缺位或成上市“拦路虎”

    上半年业绩表现不佳
    科隆新材的主营业务是液压组合密封件和液压软管等橡塑新材料产品的研发、生产和销售,以及煤矿辅助运输设备的整车设计、生产、销售和维修,同时也为风电、军工、高铁等行业客户提供定制化橡塑新材料产品。
    同时,如果未来煤炭主体能源地位被快速替代,下游客户新机装备需求减少,科隆新材又未能拓展旧机维修业务,或是未能适应市场变化、新技术和新产品未能顺应市场发展趋势,那么科隆新材就存在橡塑新材料产品经营业绩下滑的风险,甚至可能会对公司整体经营业绩造成不利影响。

    商业密码 2024年9月20日
  • 淘宝倒逼新风向:一场电商减负运动

    但售后服务同时也是电商变革最复杂的一环,开店、佣金、流量推广都只是商家与平台间的服务交易,售后却涉及平台导向、商家成本和消费者体验三方,且受社会消费情绪变化、平台生态优劣的直接制约,是各方利益最难平衡的地方。
    我们也发现,在这个过程中,电商平台的自我角色定位也在调整,从推出「仅退款」的游戏规则制定者、大家长,逐渐过渡到生态系统的设计者、平衡商家和消费者利益的服务商。

    商业密码 2024年9月20日
  • 博浪AI时代,阿里、华为“硬碰硬”

    根据申万一级行业分类,阿里巴巴概念板块156家上市公司分布于22个行业,其中传媒、电子、商贸零售、通信、医药生物分别聚集了50、25、13、11、9只概念股。
    根据申万一级行业分类,华为概念板块896家上市公司分布于28个行业,其中,计算机、电子、机械设备、通信、电力设备分别聚集了220、193、92、65、61只概念股。

    商业密码 2024年9月20日
  • 员工挂“罪牌”戴纸托手铐引质疑,80后王云安创立的古茗又“翻车”了

    员工头挂“罪牌”手戴纸托手铐,古茗玩梗惨遭翻车
    近日,古茗员工头挂“罪牌”、手戴形似手铐纸托的视频,在社交平台上广泛传播,引发诸多网友热议。
    至于上海,王云安认为该市场毗邻浙江,因此会有一定的消费者基础,但是上海奶茶行业竞争激烈,外卖比例很高,相对来说门店的收益更难做好,“我们在进省会城市,以及大的一线城市的时候,我们一定是做好准备了再去的,比如上海的消费者到底要什么,我们进去应该怎么做才可以让更多的店做得更好,古茗能够给上海的消费者带来什么样的不同呢,这些是我们要去思考的。

    商业密码 2024年9月20日
  • 古井教父悲情收场

    1986年之后的十年里,古井的资产增长了18倍,利润增长了24倍,王效金也因此被称为“古井教父”,甚至是“中国酒界第一人”。
    这款拥有1800多年历史的安徽名酒也许永远也不会再与茅台并肩了,但如今也可以称得上再度振兴,尤其是这一切还建立在王效金的固执和自大,当年差一点毁了古井贡酒的基础上。
    他甚至曾经在公开场合说过,王效金就是古井,古井就是王效金,“效忠”古井就是效忠他。

    2024年9月20日
  • 直言AI不如原创,吴克群凭什么?

    吴克群的原创音乐哲学
    来到《音乐缘计划》,吴克群分外真诚。
    如此来看,吴克群选择参与《音乐缘计划》这一原创音乐综艺,正是源自于他与原创音乐人之间的惺惺相惜。
    在分享创作心得、探讨音乐理念时,吴克群不再简单是一个综艺节目的嘉宾,他也是作为一名原创音乐人出现在舞台上,让一切热爱与纯粹都具象化。
    于是,面对当下音乐生态的顽疾,新生代音乐人的困境,吴克群会在稳定的音乐事业之外,积极参与各种原创音乐活动。

    商业密码 2024年9月20日
  • 专门“收割”妈妈们的特百惠,被时代抛弃了

    02特百惠被时代抛弃了
    《新品略财经》记得三四年前,在深圳龙华区某购物中心还开了一家特百惠的店,也曾在店里买过东西,当时的印象是特百惠的产品卖得还不错。
    在《新品略财经》看来,特百惠既是时代的产物,也是被时代抛弃的产物,这与消费环境、消费需求、市场竞争,乃至是与特百惠的传统商业模式等各方面密切相关。
    从产品层面来说,特百惠是化学科技运用到日用物品的代表案例,在特百惠诞生的年代,家庭有着食物保鲜难的痛点,特别是在冰箱不普及的年代,特百惠犹如“刚需”般存在。

    商业密码 2024年9月20日
  • 县城消费的另一面:喝奶茶的少了,钓鱼的多了

    图源:作者拍摄

    图源:作者拍摄
    刘子涵继续说道,现在同学之所以不愿意喝新茶饮,还有一部分原因是,学生们对新茶饮的口感愈发失去新鲜感。

    图源:作者拍摄
    但并不是所有县城零食折扣店都这么火爆,中秋节假日当晚当地赵一鸣零食折扣店偌大的门店看不到太多顾客,收银台前也仅有几个顾客在排队结算。

    图源:受访者提供

    有人为钓鱼投入千元,有人干起代购
    和新茶饮相对冷清、零食折扣店门店客流分化不同的是,部分业态在县城仍迎来火爆。

    2024年9月19日
  • 闪回科技二度冲刺港股,深陷盈利困境,雷军看走眼了?

    在回收生意的上游,闪回科技通过闪回收从消费电子厂商、零售商、运营商以及C端消费者处获取二手手机供给。
    在下游销售端,闪回科技以“闪回有品”面向B端商户和消费者进行二手机和新机的销售,公司接近90%营收由闪回有品贡献。”

    B端渠道的手机厂商是闪回科技高增长最大的助力,但与之相伴的是,面对强势的手机大厂,闪回科技没有议价权,还需要向手机厂商支付高昂的保证金和促销服务费。

    2024年9月19日