文|白 鸽
AIGC狂飙一年,算法进步和应用落地的爆发,让中国云计算厂商感受着切实的变化。
“今年一季度,大模型企业在云存储的消耗同比在增加。”
4月8日,在腾讯云AIGC云存储解决方案升级发布会上,腾讯云存储总经理马文霜同时预计,今年AIGC对于云端的调用量一定是爆发式的增长。
马文霜还开半玩笑地说,“可能这些企业拿到的投资更多了”。
随着多模态技术的进化和落地应用的逐渐爆发,让大模型的训练和推理迎来了一些新的挑战。
事实上,从语言和图像为主的GPT,到视频生成模型Sora,大模型参数正在指数级增长。比如ChatGPT在GPT-2时是10亿参数量,到现在GPT-4已经有1.8万亿参数。Sora为主的多模态技术,更会让需要处理的数据量急剧增加,而这才刚刚是视频生成模型的GPT-1.0时代。
参数越大,对云存储的需求就会越高,包括云存储的数据量以及吞吐量等,如果云存储能力不能够满足大模型的需求,则会直接影响到大模型的训练速度和推理效率。
在大模型加速发展的阶段,大模型企业也越来越重视云存储这一重要的底层基础设施能力。但AIGC时代,究竟需要什么样的云存储技术?
云存储的新挑战AIGC数据训练的新需求
“内卷”之下,大模型企业开始拼算力、拼参数,更拼大模型的更新速度。
如百川智能,前期平均一个月发布升级一款大模型,百度文心一言在发布之初,甚至一个月内就完成了4次技术版本的升级。
想要保持大模型的更新频率和速度,就要保证整个大模型数据训练过程的高效,其中某一个环节出现问题,就可能会拉长整个训练时长,增加训练成本。
因此,作为整个大模型数据训练的底座,云存储的重要性日益凸显。那么,AIGC时代到底需要什么样的云存储技术?
存储作为数据的载体,现如今已经不仅仅只承担“存”的作用,更需要打通数据从“存”到“用”的最后一公里。
始于19年前QQ空间的腾讯云存储,如今在国内云厂商中存储能力一直处于领导者象限(沙利文报告),他们的做法对行业颇有借鉴意义。
马文霜向光锥智能提到,在AIGC数据训练的4个环节中,存储需要提供的具体能力,包括:
-
数据采集阶段,需要一个大容量、低成本、高可靠的数据存储底座;
-
数据清洗阶段,需要提供更多协议的支持,以及至少GB甚至TB级的数据访问性能;
-
数据训练阶段,作为大模型训练的关键环节,则需要一个TB级的带宽存储保证训练过程中Checkpoint能够快速保存,以便于保障训练的连续性和提升CPU的有效使用时长,也需要存储提供百万级IOPS能力,来保证训练时海量小样本读取不会成为训练瓶颈;
-
数据应用阶段,则需要存储提供比较丰富的数据审核能力,来满足鉴黄、鉴暴等安全合规的诉求,保证大模型生成的内容以合法、合规的方式使用;
在这4个环节中,腾讯云AIGC云存储解决方案,分别由4款产品提供专属服务,包括对象存储COS、高性能并行文件存储CFS Turbo、数据加速器GooseFS和数据万象CI。
而这次腾讯云存储面向AIGC场景的升级,就是基于上述4款产品将大模型的数据清洗和训练效率提升1倍,整体训练时长缩短一半。
首先,在数据采集环节,基于自研的对象存储引擎YottaStore,腾讯云对象存储COS可支持单集群管理百EB级别存储规模,多种协议和不同数据公网接入能力,可以让采集的原始数据便捷入湖。
数据清洗环节,COS访问链路比较长,数据读取效率并不高,所以腾讯云在这中间添加了一层自研的数据加速器GooseFS。
COS通过自研数据加速器GooseFS提升数据访问性能,可实现高达数TBps的读取带宽,提供亚毫秒级的数据访问延迟、百万级的IOPS和TBps级别的吞吐能力。
“这让单次数据清洗任务耗时减少一半。”马文霜说道。
相比采集和清洁,大模型的训练则更加耗时,短则数周、长则数月,这期间如果任何一个CPU/GPU的节点掉线,都会导致整个训练前功尽弃。
业内通常会采用2~4个小时保存一次训练成果,即Checkpoint(检查点),以便能在GPU故障时能回滚。
此时则需要将保存的Checkpoint时间缩短到越短越好,但数千上万个节点都需要保存Checkpoint,这就对文件存储的读写吞吐提出了非常高的要求。
马文霜表示:“两年前我们发布高性能并行文件存储CFS Turbo第一个版本,是100GB的读写吞吐,当时觉得这个读写吞吐已经足够大,很多业务用不到。但去年大模型出来以后,用CFS Turbo再去写Checkpoint,我们发现100G还远远不够。”
CFS Turbo底层技术来自于腾讯云自研的引擎Histor。此次升级,腾讯云将CFS Turbo的读写吞吐能力从100GB直接升级至TiB/s级别,让3TB checkpoint 写入时间从10分钟,缩短至10秒内,时间降低90%,大幅提升大模型训练效率。
针对数据访问延迟问题,腾讯云引擎Histor可支持单个节点GPU与所有存储节点进行通信,进行并行数据访问。“另外,我们通过RDMA(远程直接地址访问)等技术不断优化数据访问延迟,缩短IO路径,最终可做到亚毫秒级访问延迟。”马文霜说道。
同时,腾讯云Histor还可以将元数据目录打散至所有存储节点上,提供线性扩张能力,从而实现文件打开、读取、删除的百万级IOPS能力。
应用阶段,大模型推理场景则对数据安全与可追溯性提出更高要求。腾讯云数据万象CI是一站式内容治理服务平台,它可以对AI生成的内容进行一站式管理,可以提供图片隐式水印、AIGC内容审核、智能数据检索MetaInsight等能力。
此次升级,腾讯云重点讲述了智能数据检索MetaInsight,其能够基于大模型和向量数据库进行跨模态搜索服务,也就是可以文搜图、文搜视频、图搜图、视频搜视频,并凭借95%以上的召回率,可以帮助用户快速锁定目标内容,提升审核效率。
基于这套AIGC云存储技术底座,腾讯云存储总经理陈峥表示,腾讯自研项目(比如混元大模型)的整体效率至少提升了2倍以上。
目前,除腾讯自己的混元大模型,数据显示,已有80%的头部大模型企业使用了这套AIGC云存储解决方案,包括百川智能、智谱、元象等明星大模型企业。
而针对解决方案升级后的产品价格,马文霜则表示,“不会有变化”。在阿里云和京东云都宣布降价时,腾讯云并没有选择降价,而是“加量不加价”。
“稳定性、高性能,以及性价比,是大模型时代云存储的核心。”腾讯云智能存储总监叶嘉梁说道。
当然,在AIGC时代,云厂商都想抓住这一次用云需求爆发的机会。除了腾讯云外,阿里云、华为云等其他云厂商在AIGC云存储领域也都有相应的布局。
比如2023年,华为云针对大模型时代的云存储发布了OceanStor A310 深度学习数据湖存储和FusionCube A3000 训/推超融合一体机两款产品。
阿里云面向AI时代的云存储解决方案,也覆盖了底层对象存储 OSS数据湖、高性能文件存储、并行文件存储 CPFS、PAI-灵骏智算服务以及智能媒体管理IMM平台等产品。
可以看到,围绕AIGC的需求,云厂商在云存储领域迅速更新换代。阿里云的思路与腾讯云非常接近,而华为云则加入了自己在硬件方面的优势。
云存储技术仅是云计算众多底层核心技术之一,随着大模型深度发展,云厂商们已经开始在整个PaaS层、IaaS层、MaaS层,都在围绕AIGC进行迭代升级,为行业提供全链路大模型云服务。
争做“最适合大模型”的云云厂商狂飙
云已经成为大模型的最佳载体,大模型也正在重塑云服务的形态。
马文霜认为,云上丰富的资源、计算、存储、网络、容器技术和PaaS,都能够解决AIGC在各个环节上对资源的诉求。云还能够给AIGC提供成熟的方案和丰富的生态支持,让客户可以聚焦在自己产品竞争力的方向进行开发,加速整体研发效率以及应用落地的速度。
面对AIGC带来的大模型发展浪潮,腾讯集团副总裁、腾讯云与智慧产业事业群COO兼腾讯云总裁邱跃鹏曾表示,大模型将开创下一代云服务,腾讯云要打造“最适合大模型的云”。
自从大模型热潮爆发以来,腾讯云在大模型业务推出上不是最快的一个,但却是最扎实的一个。
在2023年9月的腾讯全球数字生态大会上,腾讯云面向AIGC场景推出了基于星脉网络的大模型训练集群HCC、向量数据库以及行业大模型的MaaS服务。
也就是说,腾讯云从底层智算能力,到中间件,再到上层MaaS,已经实现了全链路大模型云化能力升级迭代,每个业务都很务实。
比如,针对大模型对算力的迫切需求,腾讯云高性能计算集群HCC为大模型训练提供高性能、高带宽、低延迟的智能算力支撑。通过自研星脉网络,能提升40%GPU利用率,节省30%~60%模型训练成本,提升AI大模型10倍通信性能。利用星星海自研服务器的6U超高密度设计和并行计算理念,确保高性能计算。
针对在中间层对数据调度应用的需求,腾讯云向量数据库,可为多维向量数据提供高效存储、检索和分析能力。客户可将私有数据经过文本处理和向量化后,存储至腾讯云向量数据库,从而创建一个定制化外部知识库。在后续查询任务中,这个知识库也能为大模型提供必要的提示,辅助AIGC应用产生更精确的输出。
而针对行业大模型开发与落地应用服务,腾讯云则在整个云底座之上推出了MaaS服务解决方案,为企业客户提供涵盖模型预训练、模型精调、智能应用开发等一站式行业大模型解决方案。
其中,值得一提的是腾讯云是业界最早提出走“向量数据库”路线的云厂商,在大家对大模型部署还尚有技术路线争议之初,腾讯就做了这个选择。目前,向量数据库+RAG(检索增强)也已经成为业内使用频率最多的大模型部署路线。
可以看到,在回归“产品优先”战略后,腾讯云在大模型时代的打法也逐渐清晰——不盲目追随行业,而是基于对AIGC的理解,做自己的产品迭代。
不过,面对十年一遇的大模型机会,华为云、阿里云、百度云等云厂商也都在2023年争先恐后地布局,腾讯云的压力并不小。
过去一年,华为云构建了包括以华为云昇腾AI云服务为算力底座、行业首个大模型混合云Stack 8.3,在MaaS层用盘古大模型在千行百业中落地。华为云还上线了昇腾AI云服务百模千态专区,收录了业界主流开源大模型。可以看到,华为云集成了算力、政企、行业、生态等多方面的优势,可谓火力全开。
阿里云则是国内大厂中唯一做开源大模型的公司,说明心态最为开放、做平台的决心最强。阿里云在智能算力底座之上,打造了以机器学习平台PAI为核心的PaaS服务,以及上层MaaS服务。其中,在开发者生态层,截至2023年11月1日,阿里云发起的AI模型社区魔搭已经有超过2300个模型,开发者超过280万,模型下载次数也超过了1亿多次。
云厂商们掀起了新一轮厮杀,是因为大模型的红利。
AI的发展正在带动用云需求的增长,并已成为云计算产业发展的第二增长曲线。毕竟,大模型的算力使用几乎可以说是“无底洞”,此前业界曾预测OpenAI训练GPT-4可能使用了大约10000-25000张GPU,以及微软的云上算力支撑。
因此,在AIGC时代,各大云厂商都在探索如何基于AI重塑云计算技术和服务体系,开辟全新的服务场景和服务内容,从而能够抓住这轮AI大模型升级发展所带来的机会。
大趋势下,Cloud for AI不仅是云厂商的新机会,也是必答题。陈峥也表示,云厂商现阶段所能够做的就是提前进行技术产品布局,并将整个数据价值开放给客户,从而让客户更好的利用数据。