模型上下文长度达到10000000，又一批创业者完蛋了？

2024年2月25日 16:05 • 未来科技

针对RAG支持1B级别的Token，而目前Gemini。

如果将上下文的窗口设定为1M，按现在0.0015美元/1000token的收费标准，一次请求就要花掉1.5美元，这么高的成本显然是无法实现日常使用的。Token）

这被Sora暂时掩盖住的一次尝试或许在未来会作为生成式AI上的一个重要时刻被反复提及，它现在也真正让发明了transformer框架的谷歌，回归到这场本该由自己引领的竞争中了。

没有疑问，Gemini 1.5 Pro的隆重推出被Sora抢了风头。

社交平台X上OpenAI介绍Sora的第一条动态，现在已经被浏览了超过9000万次，而关于Gemini 1.5 Pro的热度最高的一条，来自谷歌首席科学家Jeff Dean，区区123万人。

或许Jeff Dean自己也觉得郁闷。Gemini 1.5 Pro和Sora共同发布的一周后，他在X上点赞了沃顿商学院副教授Ethan Mollick认为人们对大模型的注意力发生了偏差的观点。

Ethan Mollick几乎是教育界最早公开推崇生成式AI的人之一，他在2023年2月公开呼吁学生应该都应该开始用ChatGPT写论文。而这一次他的观点是，考虑到大模型在图像生成方面所体现出的有限价值，它实在是引起了过多的讨论了。

对于大模型的实验室来说，图像生成更像是一个聚会上的节目……作为内核的LLM才是价值所在。但社交媒体更乐于分享照片。

没说的是，社交媒体也更乐于分享Gif，以及视频。

人类是视觉动物，所以Sora才会这么抢眼。或许我们太高估了Sora，又太忽视了Gemini 1.5 Pro。

Gemini 1.5 Pro展现出的众多能力中有一点很特殊，它已经是一个具备处理视频语料输入的多模态大模型。Sora能将文字扩展成视频，Gemini 1.5 Pro的野心是把理解视频的能力开放出来。在对模型能力的考验上，很难说后者就弱于前者。

这背后的基础性工作在上下文输入长度上。Gemini 1.5 Pro的上下文长度达到1M Token，这意味着一小时的视频、3万行代码或者JK·罗琳把小说从《哈利·波特与魔法石》写到《哈利·波特与凤凰社》，远高于包括GPT、Claude系列在内的目前市面上所有的大模型。而谷歌甚至透露，1M Token并不是极限，谷歌内部已经成功测试了高达10M Token的输入，也就是说，它已经能一口气看完9个小时的《指环王》三部曲。

上下文长度抵达10M Token到底意味着什么，等到Sora带来的激情稍褪，人们逐渐回过味儿来。

X、Reddit……越来越多的讨论开始关注到10M Token所展现出的可能性，其中最大的争议在于，它是否“杀死”了RAG（Retrieval Augment Generation，检索增强生成）。

大模型从概念走向商业应用的过程中，本身的问题逐渐暴露，RAG开始成为贯穿整个2023年最火热的技术名词。

一个被普遍接受的描述框架给这项技术找到了最精准的定位。如果将整个AI看作一台新的计算机，LLM就是CPU，上下文窗口是内存，RAG技术是外挂的硬盘。RAG的责任是降低幻觉，并且提升这台“新计算机”的实效性和数据访问权限。

但本质上这是因为这台“新计算机”仍然又笨又贵，它需要更多脑容量、需要了解更具专业性的知识，同时最好不要乱动昂贵又玻璃心的那颗CPU。RAG某种程度上是为了生成式AI能够尽早进入应用层面的权宜之计。

10M Token的上下文输入上限，意味着很多RAG要解决的问题不成问题了，然后一些更激进的观点出现了。

曾构建了评测基准C-EVAL的付尧认为，10M Token杀死了RAG——或者更心平气和的说法是，长文本最终会取代RAG。

这个观点引发了许多讨论，他也随后对这个看起来“暴论”式的判断所引发的反对观点做了进一步解释，值得一看。

其中最重要的，是长文本相比于RAG在解码过程中的检索上的优越性：

RAG只在最开始进行检索。通常，给定一个问题，RAG会检索与该问题相关的段落，然后生成。长上下文对每一层和每个Token进行检索。在许多情况下，模型需要进行即时的每个Token的交错检索和推理，并且只有在获得第一个推理步骤的结果后才知道要检索什么。只有长上下文才能处理这种情况。

针对RAG支持1B级别的Token，而目前Gemini 1.5 pro支持的上下文长度是1M的问题：

确实如此，但输入文档存在自然分布，我倾向于相信大多数需要检索的案例都在百万级以下。例如，想象一个处理案例的层，其输入是相关的法律文件，或者一个学习机器学习的学生，其输入是三本机器学习书籍——感觉不像1B那么长，对吗？

“大内存的发展并不意味着硬盘的淘汰。”有人持更温和的观点。

出于成本和效率上的考虑，超长文本输入在这两方面显然并不成熟。因此哪怕面对10M Token的上下文输入上限，RAG仍然是必需的，就像我们时至今日仍然没有淘汰掉硬盘。

如果将上下文的窗口设定为1M，按现在0.0015美元/1000token的收费标准，一次请求就要花掉1.5美元，这么高的成本显然是无法实现日常使用的。

在时间成本上，1M的上下文长度在Gemini 1.5 Pro的演示实例中，需要60秒来完成结果的输出——但RAG几乎是实时的。

付尧的观点更倾向于——“贵的东西，缺点只有贵”。

RAG 很便宜，长上下文很昂贵。确实如此，但请记住，与 LLM 相比，BERT-small 也便宜，n-gram 更便宜，但今天我们已经不使用它们，因为我们希望模型首先变得智能，然后智能模型再变得更便宜。

人工智能的历史告诉我们，让智能模型变得更便宜比让廉价模型变得智能要容易得多——当它很便宜时，它就永远不会智能。”

一位开发者的观点代表了很多对这一切感到兴奋的技术人员：在这样一场技术革命的早期阶段，浪费一点时间可能也没有那么要紧。

“假设我花了5分钟或1小时（见鬼，即使花了一整天）才将我的整个代码库放入聊天的上下文窗口中。如果在那之后，人工智能能够像谷歌声称的那样，在剩下的对话中近乎完美地访问该上下文，我会高兴、耐心和感激地等待这段时间。”这位在一家数字产品设计公司中供职的博客作者这样写道。

在这位开发者发布这条博客之前，Cognosys AI的联创Sully Omarr刚刚往Gemini 1.5 Pro的窗口里塞进去一整个代码库，并且发现它被完全理解了，甚至Gemini 1.5 Pro辨别出了代码库中的问题并且实施了修复。

“这改变了一切。”Sully Omarr在X上感叹。

被改变的可能也包括与Langchain相关的一切。一位开发者引用了Sully Omarr的话，暗示Langchain甚至所有中间层玩家即将面临威胁。

向量数据库可能突然之间就变成了一个伪需求——客户直接把特定领域的知识一股脑儿扔进对话窗口就好了，为什么要雇人花时间来做多余的整理工作呢（并且人脑对信息的整理能力也比不过优秀的LLM）？

付尧的预测与这位开发者相似，甚至更具体——以Langchain 、LLaMA index这类框架作为技术栈的初创公司，会在2025年迎来终结。

但必须强调的是，付尧对于RAG的判断和解释弱化了在成本和响应速度上的考虑，原因或许是他正在为谷歌工作，而这两点仍然是让在当下RAG具备高价值的决定性因素。而如果看向这场上下文长度的讨论背后，谷歌在这场竞争中最大的优势开始展现出来了。

它拥有目前这个行业里最多的计算能力。换句话说，对于上下文长度极限的探索，目前只有谷歌能做，它也拿出来了。

从2014年至今，谷歌已经构建了6种不同的TPU芯片。虽然单体性能仍然与H100差距明显，但TPU更贴合谷歌自己生态内的系统。去年8月，SemiAnalysis的两位分析师Dylan Patel和Daniel Nishball揭露谷歌在大模型研发上的进展时表示，⾕歌模型FLOPS的利用率在上一代TPU产品TPUv4上已经⾮常好，远超GPT-4。

目前谷歌最新的TPU产品是TPUv5e。两位分析师的调查显示，谷歌掌握的TPUv5e数量比OpenAI、Meta、CoreWeave、甲骨文和亚马逊拥有的GPU总和更多。文章里称TPUv5e将会用到谷歌最新的大模型（即是后来发布的Gemini系列）训练上，算力高达1e26 FLOPS，是GPT-4的5倍。

这个猜测在谷歌最新开源的Gemma身上得到了佐证。Gemma是Gemini的轻量化版本，两者共享相同的基础框架和相关技术，而在Gemma放出的技术报告中表明，其训练已经完全基于TPUv5e。

这也不难理解为何奥特曼要花7万亿美元为新的算力需求未雨绸缪。虽然OpenAI拥有的总GPU数量在2年内增长了4倍。

“In our research， we’ve also successfully tested up to 10 million tokens.”（在研究中，我们也成功测试了多达10M Token）

本文来自微信公众号：硅星人Pro（ID：Si-Planet），作者：油醋

声明：该内容为作者独立观点，不代表新零售资讯观点或立场，文章为网友投稿上传，版权归原作者所有，未经允许不得转载。新零售资讯站仅提供信息存储服务，如发现文章、图片等侵权行为，侵权责任由作者本人承担。如对本稿件有异议或投诉，请联系：wuchangxu@youzan.com

Like (0)

一位破译了二战德国密码的数学天才，他带走了秘诀

Previous 2024年2月25日

Sora训练数据疑暴露，网友：绝对用了UE5

Next 2024年2月25日

水温80度：AI行业真假繁荣的临界点

我们从来没拥有过这么成功的AI主导的产品。

（这种分析统计并不那么准，但大致数量级是差不多的）

这两个产品碰巧可以用来比较有两个原因：

一个是它们在本质上是一种东西，只不过一个更通用，一个更垂直。

蓝海的海峡

未来成功的AI产品是什么样，大致形态已经比较清楚了，从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时“罢工”，全网打工人都慌了

美西时间午夜12点开始，陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载，忽然无法正常工作了。

因为发现AI用久了，导致现在“离了ChatGPT，大脑根本无法运转”。”

等等，又不是只有一个聊天机器人，难道地球离了ChatGPT就不转了。

大模型连崩原因猜想，谷歌躺赢流量激增6成

GPT归位，人们的工作终于又恢复了秩序。

未来科技 2024年6月5日
ChatGPT宕机8小时，谷歌Gemini搜索量激增60%

ChatGPT一天宕机两次

谷歌Gemini搜索量激增近60%

ChatGPT在全球拥有约1.8亿活跃用户，已成为部分人群工作流程的关键部分。

过去24小时内提交的关于OpenAI宕机的问题报告

图片来源：Downdetector

ChatGPT系统崩溃后，有网友在社交媒体X上发帖警告道：“ChatGPT最近发生的2.5小时全球中断，为我们所有依赖AI工具来支持业务的人敲响了警钟。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时大崩溃，AI集体罢工让全网都慌了

接着OpenAI也在官网更新了恢复服务公告，表示“我们经历了一次重大故障，影响了所有ChatGPT用户的所有计划。Generator调查显示，在ChatGPT首次故障后的四小时内，谷歌AI聊天机器人Gemini搜索量激增60%，达到327058次。

而且研究团队表示，“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关，显示出用户把Gemini视为ChatGPT的直接替代选项。

未来科技 2024年6月5日
深度对话苹果iPad团队：玻璃的传承与演变

iPad最为原始的外观专利

没错，这就是iPad最初被设想的样子：全面屏，圆角矩形，纤薄，就像一片掌心里的玻璃。

2010年发布的初代iPad

好在乔布斯的遗志，并未被iPad团队遗忘。

初代iPad宣传片画面

乔布斯赞同这一想法，于是快速将资源投入平板电脑项目，意欲打造一款与众不同的「上网本」，这就是iPad早年的产品定义。

iPad进化的底色

苹果发布会留下过很多「名场面」，初代iPad发布会的末尾就是一例。

未来科技 2024年6月5日
底层逻辑未通，影视业的AI革命正在褪色…

GPT、Sora均为革命性产品，引发了舆论风暴，但它在上个月发布的“多模态语音对谈”Sky语音，却由于声音太像电影明星斯嘉丽·约翰逊，被正主强烈警告，被迫下架。

华尔街日报也在唱衰，认为“AI工具创新步伐正在放缓，实用性有限，运行成本过高”：

首先，互联网上已经没有更多额外的数据供人工智能模型收集、训练。

03、

如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向，那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

但分歧点正在于此，电影公司希望通过使用AI技术来降低成本，但又不希望自己的内容被AI公司所窃取。

未来科技 2024年6月5日
KAN会引起大模型的范式转变吗？

“先变后加”代替“先加后变”的设计，使得KAN的每一个连接都相当于一个“小型网络”，能实现更强的表达能力。

KAN的主要贡献在于，在当前深度学习的背景下重新审视K氏表示定理，将上述创新网络泛化到任意宽度和深度，并以科学发现为目标进行了一系列实验，展示了其作为“AI+科学”基础模型的潜在作用。

KAN与MLP的对照表：

KAN使神经元之间的非线性转变更加细粒度和多样化。

未来科技 2024年6月5日
这个国家，也开始发芯片补贴了

//mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
[4]中国安防协会：欧盟批准430亿欧元芯片补贴计划：2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
[6]潮电穿戴：印度半导体投资大跃进，一锤砸下1090亿，政府补贴一半.2024.3.5https。

未来科技 2024年6月5日
大模型的电力经济学：中国AI需要多少电力？

这些报告研究对象（数字中心、智能数据中心、加密货币等）、研究市场（全球、中国与美国等）、研究周期（多数截至2030年）各不相同，但基本逻辑大同小异：先根据芯片等硬件的算力与功率，计算出数据中心的用电量，再根据算力增长的预期、芯片能效提升的预期，以及数据中心能效（PUE）提升的预期，来推测未来一段时间内智能数据中心的用电量增长情况。

未来科技 2024年6月5日
你正和20万人一起接受AI面试

原本客户还担心候选人能否接受AI面试这件事，但在2020年以后，候选人进行AI面试的过程已经是完全自动化的，包括面试过程中AI面试官回答候选人的问题，AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

以近屿智能与客户合作的校验周期至少3年来看，方小雷认为AI应用不太可能一下子爆发，包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

未来科技 2024年6月4日

模型上下文长度达到10000000，又一批创业者完蛋了？

相关推荐