AI企业疯狂“卷”文本

2024年4月20日 08:12 • 未来科技

月之暗面公司相关负责人向记者强调，与其他公司的产品不同，Kimi的长文本是无损压缩技术的长上下文，RAG是有损压缩技术。

他也提醒说，长文本只是大模型的一个技术特色，除了长文本之外，大模型还有高效训练、多模态、模型压缩、安全伦理等多方面的问题需要研究，“今天大家盯着长文本是好事，但也不能忘了其他，做好大模型需要多面开花。

2024年AI（人工智能）大模型行业的第一场竞争热潮，从长文本开始。

在AI新锐月之暗面公司宣布大模型产品Kimi已经可以支持200万字无损上下文（Long Context）之后，360、阿里巴巴、百度纷纷跟上。百度文心一言宣布即将免费开放200~500万长文本能力，阿里通义千问直接上线1000万字长文本，360也官宣内测500万字长文本。

大模型的技术方向有多种，长文本只是其中一种，它是一个相对于短文本而言的概念。此前用户在通义千问、文心一言等语言模型的对话框只能输入几千字，现在能输入几百万字甚至上千万字。

不论长文本竞争得有多激烈，各大模型公司有多么全情投入，一个首先存在的疑问是：为什么是长文本？一位大模型公司人士直言，这是最近业内讨论的热点，但长文本是否值得全力投入，目前并没有定论。

长文本热潮，与市场行情有关。推出200万字无损上下文后，Kimi一度爆火，带动华策影视、掌阅科技、中广天择等多个概念股涨停。此前大众鲜有了解的创业公司月之暗面，站在了聚光灯下。“如果你是其他大模型公司的产品经理，你会不会眼红？”担任过经纬创投副总裁的投资人庄明浩说，当下很多公司其实并不知道如何让大模型从技术走向产品，既然Kimi用长文本验证了一条路，并且得到了超出预期的正反馈，其他公司自然也可以效仿。

为什么是长文本

长文本进入大众视野，始于今年3月初，当时月之暗面旗下的Kimi爆火，特色就是长文本。

与市场上其他大模型产品相比，Kimi的区别是，它鼓励用户先发进去一个文档或链接，用户可以根据文档或链接中的内容展开问答。

月之暗面公司相关负责人告诉记者，这是公司成立之初就定下的策略：“既然要做，总要做点不一样的。”月之暗面公司创始人杨植麟在此前的采访中也多次提到，长文本是实现通用人工智能（AGI）的第一步。

月之暗面于去年3月成立，Kimi于去年10月上线，可以上传的文档最多是20万字。3月18日，Kimi宣布已支持200万字上下文输入。对比来看，目前文心一言的文本上限约2.8万字，OpenAI（美国大模型公司）需要付费的GPT-4Turbo（OpenAI最新一代产品），上下文窗口为12.8万tokens（约50万个汉字）。

Kimi鼓励用户上传文档和链接，直观体现长文本能力，让用户有直接感知，进而引发讨论。这些与其他大模型产品不一样的地方，让Kimi迅速出圈。随后其他大模型公司跟进长文本赛道。

在Kimi出圈之前，今年Sora（OpenAI旗下文生视频大模型产品）也火爆一时。为什么国内大模型公司没有卷Sora所代表的文生视频，却在3月卷起了长文本？

“因为Sora难啊。”庄明浩说。

一位大模型公司技术人士告诉记者，长文本在技术层面难度并不算高，需要的算力不像预训练那么多，所以很多公司都能负担得起。并且，国外大模型公司已经“卷”过了一轮长文本，长文本的核心技术在开源层面做得比较好，并没有技术封锁。

“如果一个国内的大模型公司做不了长文本，我们可能会认为他们的技术不过硬。”该技术人士说。

既然并无技术难度，为何360、百度、阿里此前并未推出长文本功能，而是在Kimi推出之后突然跟上。对于此现象，记者曾向360和阿里通义千问方面进行了解，但未获得回复。不过，通义千问此前提到，其长文档处理能力，是通义千问模型能力持续提升、模型功能反复打磨的结果。

记者询问了其他几家大模型公司对于长文本功能的上线规划，他们都提到，自己的产品有长文本能力。对于是否会上线上百万长文本的问题，他们没有回答。

谁在用长文本

华东一家电子公司技术负责人最近一直在用AI大模型的长文本功能，每天能用几十次。

去年10月，经同行推荐，上述技术负责人接触到Kimi的长文本功能。在电子行业，经常会有专业性很强，且长达几万字以上的文档需要处理，文档中有复杂的数据格式，阅读费时费力。之前他主要使用ChatGPT帮忙阅读文档，ChatGPT免费版支持的最长文档是4kb（4千字节，约2000个汉字），他不得不把长文档拆分成很多小段，使用感受并不好。国外另一款产品Claude3（美国人工智能初创公司Anthropic的大模型产品）支持几万字长文本，但每天免费次数只有20次。

Kimi支持20万字上下文阅读，目前正在内测200万字的上下文功能。上述技术负责人的感受是，长文本的确很有用。之前做技术研究时，遇到其他领域的问题，他经常需要问公司同事。现在他把公司内部文档扔进对话框，就能立刻得出准确答案。“它能准确、高效地总结出完整的核心思想。”上述技术负责人说，对于电子行业，内容完整很重要，非长文本产品实现不了。

经常使用长文本后，他很感慨，以前还是把AI的能力想小了，“你不能只把AI当做简单的聊天工具，那样就太大材小用了。它真的能在工作、生活中帮到你，能在各行各业中应用。”

通义千问方面称，长文本能力是金融、法律、科研、医疗、教育等领域专业人士的刚需。这些人士可通过通义千问快速读研报、分析财报、读科研论文、研判案情、读医疗报告、解读法律条文、分析考试成绩、总结深度文章。“长文本的价值不容小觑。”AI上市公司创新奇智首席技术官张发恩带领产研团队研发了面向行业的垂类大模型。他最近也在关注大模型长文本技术，并坚信它是一个非常有用的技术。如果要充分挖掘大模型的潜力，用户需输入充足的信息，在这方面，长文本技术的引入显得尤为关键。

他也提到，大模型长文本的技术原理不算复杂，但想做好很难。常见的现象是，用户输入长文本，并针对输入的内容进行了提问，但做得不好的大模型会遗漏关键信息，导致回答质量不高。

真假与争议

多家公司宣布上线长文本后，一些质疑的声音也出现了。质疑者认为后来者上线的并不是真正的长文本技术，而是RAG技术。RAG是一种被称为检索增强生成的技术，这种技术可以从文档中搜索出相关内容，并把这些内容给到大模型做推理。

月之暗面公司相关负责人向记者强调，与其他公司的产品不同，Kimi的长文本是无损压缩技术的长上下文，RAG是有损压缩技术。他举例说，比如读一本100万字的书，Kimi的长文本技术会逐字逐句挨个读，读完100万字再归纳总结做分析。RAG技术可能只读了这本书每一页的第一行，就去归纳总结做分析。在最终呈现的效果上，无损压缩技术输出的内容更真实、全面、有效。

“如果是真正的无损压缩技术，现在应该没有公司愿意给用户免费使用500万字或1000万字的长文本。”上述相关负责人说，1000万字长文本情景下，发布一个简单的对话任务，半天时间才能收到结果，机器推理成本也翻了几十倍。

另一方面，文本长度是不是越长越好，目前也并没有形成共识。“去年大模型公司都在卷参数，从千亿卷到万亿，意义并不大。”庄明浩称，今年大模型开卷的文本长度，可能也没有太大意义，“谁会经常把1000万字的文本喂给大模型？”

上述电子公司技术负责人告诉记者，他不准备使用有1000万字长文本的产品，现在的200万字足够满足工作需求了。

张发恩觉得，长文本可以卷，但卷的视野可以从文本拓展到多模态内容。长文本的真正含义应该是Long Context Window（长上下文窗口）。今年2月，在Sora发布的同一天，谷歌发布了最新一代多模态大模型Gemini1.5Pro，它能把一段几分钟长度的图书馆书架的视频放进对话框，并整理视频中出现的所有图书的名字。张发恩认为，这也是Long Context Window的能力，值得重视。

他也提醒说，长文本只是大模型的一个技术特色，除了长文本之外，大模型还有高效训练、多模态、模型压缩、安全伦理等多方面的问题需要研究，“今天大家盯着长文本是好事，但也不能忘了其他，做好大模型需要多面开花。”

本文来自微信公众号：经济观察报（ID：eeo-com-cn），作者：任晓宁

声明：该内容为作者独立观点，不代表新零售资讯观点或立场，文章为网友投稿上传，版权归原作者所有，未经允许不得转载。新零售资讯站仅提供信息存储服务，如发现文章、图片等侵权行为，侵权责任由作者本人承担。如对本稿件有异议或投诉，请联系：wuchangxu@youzan.com

Like (0)

你的“数字孪生”，或将挽救你的生命

Previous 2024年4月19日

姚颂：穿过创业与投资的旋转门

Next 2024年4月20日

水温80度：AI行业真假繁荣的临界点

我们从来没拥有过这么成功的AI主导的产品。

（这种分析统计并不那么准，但大致数量级是差不多的）

这两个产品碰巧可以用来比较有两个原因：

一个是它们在本质上是一种东西，只不过一个更通用，一个更垂直。

蓝海的海峡

未来成功的AI产品是什么样，大致形态已经比较清楚了，从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时“罢工”，全网打工人都慌了

美西时间午夜12点开始，陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载，忽然无法正常工作了。

因为发现AI用久了，导致现在“离了ChatGPT，大脑根本无法运转”。”

等等，又不是只有一个聊天机器人，难道地球离了ChatGPT就不转了。

大模型连崩原因猜想，谷歌躺赢流量激增6成

GPT归位，人们的工作终于又恢复了秩序。

未来科技 2024年6月5日
ChatGPT宕机8小时，谷歌Gemini搜索量激增60%

ChatGPT一天宕机两次

谷歌Gemini搜索量激增近60%

ChatGPT在全球拥有约1.8亿活跃用户，已成为部分人群工作流程的关键部分。

过去24小时内提交的关于OpenAI宕机的问题报告

图片来源：Downdetector

ChatGPT系统崩溃后，有网友在社交媒体X上发帖警告道：“ChatGPT最近发生的2.5小时全球中断，为我们所有依赖AI工具来支持业务的人敲响了警钟。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时大崩溃，AI集体罢工让全网都慌了

接着OpenAI也在官网更新了恢复服务公告，表示“我们经历了一次重大故障，影响了所有ChatGPT用户的所有计划。Generator调查显示，在ChatGPT首次故障后的四小时内，谷歌AI聊天机器人Gemini搜索量激增60%，达到327058次。

而且研究团队表示，“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关，显示出用户把Gemini视为ChatGPT的直接替代选项。

未来科技 2024年6月5日
深度对话苹果iPad团队：玻璃的传承与演变

iPad最为原始的外观专利

没错，这就是iPad最初被设想的样子：全面屏，圆角矩形，纤薄，就像一片掌心里的玻璃。

2010年发布的初代iPad

好在乔布斯的遗志，并未被iPad团队遗忘。

初代iPad宣传片画面

乔布斯赞同这一想法，于是快速将资源投入平板电脑项目，意欲打造一款与众不同的「上网本」，这就是iPad早年的产品定义。

iPad进化的底色

苹果发布会留下过很多「名场面」，初代iPad发布会的末尾就是一例。

未来科技 2024年6月5日
底层逻辑未通，影视业的AI革命正在褪色…

GPT、Sora均为革命性产品，引发了舆论风暴，但它在上个月发布的“多模态语音对谈”Sky语音，却由于声音太像电影明星斯嘉丽·约翰逊，被正主强烈警告，被迫下架。

华尔街日报也在唱衰，认为“AI工具创新步伐正在放缓，实用性有限，运行成本过高”：

首先，互联网上已经没有更多额外的数据供人工智能模型收集、训练。

03、

如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向，那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

但分歧点正在于此，电影公司希望通过使用AI技术来降低成本，但又不希望自己的内容被AI公司所窃取。

未来科技 2024年6月5日
KAN会引起大模型的范式转变吗？

“先变后加”代替“先加后变”的设计，使得KAN的每一个连接都相当于一个“小型网络”，能实现更强的表达能力。

KAN的主要贡献在于，在当前深度学习的背景下重新审视K氏表示定理，将上述创新网络泛化到任意宽度和深度，并以科学发现为目标进行了一系列实验，展示了其作为“AI+科学”基础模型的潜在作用。

KAN与MLP的对照表：

KAN使神经元之间的非线性转变更加细粒度和多样化。

未来科技 2024年6月5日
这个国家，也开始发芯片补贴了

//mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
[4]中国安防协会：欧盟批准430亿欧元芯片补贴计划：2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
[6]潮电穿戴：印度半导体投资大跃进，一锤砸下1090亿，政府补贴一半.2024.3.5https。

未来科技 2024年6月5日
大模型的电力经济学：中国AI需要多少电力？

这些报告研究对象（数字中心、智能数据中心、加密货币等）、研究市场（全球、中国与美国等）、研究周期（多数截至2030年）各不相同，但基本逻辑大同小异：先根据芯片等硬件的算力与功率，计算出数据中心的用电量，再根据算力增长的预期、芯片能效提升的预期，以及数据中心能效（PUE）提升的预期，来推测未来一段时间内智能数据中心的用电量增长情况。

未来科技 2024年6月5日
你正和20万人一起接受AI面试

原本客户还担心候选人能否接受AI面试这件事，但在2020年以后，候选人进行AI面试的过程已经是完全自动化的，包括面试过程中AI面试官回答候选人的问题，AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

以近屿智能与客户合作的校验周期至少3年来看，方小雷认为AI应用不太可能一下子爆发，包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

未来科技 2024年6月4日

AI企业疯狂“卷”文本

相关推荐