AIGC时代,需要什么样的云存储?

而这次腾讯云存储面向AIGC场景的升级,就是基于上述4款产品将大模型的数据清洗和训练效率提升1倍,整体训练时长缩短一半。
云存储技术仅是云计算众多底层核心技术之一,随着大模型深度发展,云厂商们已经开始在整个PaaS层、IaaS层、MaaS层,都在围绕AIGC进行迭代升级,为行业提供全链路大模型云服务。
在2023年9月的腾讯全球数字生态大会上,腾讯云面向AIGC场景推出了基于星脉网络的大模型训练集群HCC、向量数据库以及行业大模型的MaaS服务。

文|白 鸽

编|王一粟

AIGC狂飙一年,算法进步和应用落地的爆发,让中国云计算厂商感受着切实的变化。

“今年一季度,大模型企业在云存储的消耗同比在增加。”

4月8日,在腾讯云AIGC云存储解决方案升级发布会上,腾讯云存储总经理马文霜同时预计,今年AIGC对于云端的调用量一定是爆发式的增长。

马文霜还开半玩笑地说,“可能这些企业拿到的投资更多了”。

随着多模态技术的进化和落地应用的逐渐爆发,让大模型的训练和推理迎来了一些新的挑战。

事实上,从语言和图像为主的GPT,到视频生成模型Sora,大模型参数正在指数级增长。比如ChatGPT在GPT-2时是10亿参数量,到现在GPT-4已经有1.8万亿参数。Sora为主的多模态技术,更会让需要处理的数据量急剧增加,而这才刚刚是视频生成模型的GPT-1.0时代。

参数越大,对云存储的需求就会越高,包括云存储的数据量以及吞吐量等,如果云存储能力不能够满足大模型的需求,则会直接影响到大模型的训练速度和推理效率。

在大模型加速发展的阶段,大模型企业也越来越重视云存储这一重要的底层基础设施能力。但AIGC时代,究竟需要什么样的云存储技术?

AIGC数据训练的新需求,云存储的新挑战

“内卷”之下,大模型企业开始拼算力、拼参数,更拼大模型的更新速度。

如百川智能,前期平均一个月发布升级一款大模型,百度文心一言在发布之初,甚至一个月内就完成了4次技术版本的升级。

想要保持大模型的更新频率和速度,就要保证整个大模型数据训练过程的高效,其中某一个环节出现问题,就可能会拉长整个训练时长,增加训练成本。

因此,作为整个大模型数据训练的底座,云存储的重要性日益凸显。那么,AIGC时代到底需要什么样的云存储技术?

存储作为数据的载体,现如今已经不仅仅只承担“存”的作用,更需要打通数据从“存”到“用”的最后一公里。

始于19年前QQ空间的腾讯云存储,如今在国内云厂商中存储能力一直处于领导者象限(沙利文报告),他们的做法对行业颇有借鉴意义。

马文霜向光锥智能提到,在AIGC数据训练的4个环节中,存储需要提供的具体能力,包括:

数据采集阶段,需要一个大容量、低成本、高可靠的数据存储底座;

数据清洗阶段,需要提供更多协议的支持,以及至少GB甚至TB级的数据访问性能;

数据训练阶段,作为大模型训练的关键环节,则需要一个TB级的带宽存储保证训练过程中Checkpoint能够快速保存,以便于保障训练的连续性和提升CPU的有效使用时长,也需要存储提供百万级IOPS能力,来保证训练时海量小样本读取不会成为训练瓶颈;

数据应用阶段,则需要存储提供比较丰富的数据审核能力,来满足鉴黄、鉴暴等安全合规的诉求,保证大模型生成的内容以合法、合规的方式使用;

在这4个环节中,腾讯云AIGC云存储解决方案,分别由4款产品提供专属服务,包括对象存储COS、高性能并行文件存储CFS Turbo、数据加速器GooseFS和数据万象CI。

而这次腾讯云存储面向AIGC场景的升级,就是基于上述4款产品将大模型的数据清洗和训练效率提升1倍,整体训练时长缩短一半。

首先,在数据采集环节, 基于自研的对象存储引擎YottaStore,腾讯云对象存储COS可支持单集群管理百EB级别存储规模,多种协议和不同数据公网接入能力,可以让采集的原始数据便捷入湖。

数据清洗环节,COS访问链路比较长,数据读取效率并不高,所以腾讯云在这中间添加了一层自研的数据加速器GooseFS。

COS通过自研数据加速器GooseFS提升数据访问性能,可实现高达数TBps的读取带宽,提供亚毫秒级的数据访问延迟、百万级的IOPS和TBps级别的吞吐能力。

“这让单次数据清洗任务耗时减少一半。”马文霜说道。

相比采集和清洁,大模型的训练则更加耗时, 短则数周、长则数月,这期间如果任何一个/GPU的节点掉线,都会导致整个训练前功尽弃。

业内通常会采用2~4个小时保存一次训练成果,即Checkpoint(检查点),以便能在GPU故障时能回滚。

此时则需要将保存的Checkpoint时间缩短到越短越好,但数千上万个节点都需要保存Checkpoint,这就对文件存储的读写吞吐提出了非常高的要求。

马文霜表示:“两年前我们发布高性能并行文件存储CFS Turbo第一个版本,是100GB的读写吞吐,当时觉得这个读写吞吐已经足够大,很多业务用不到。但去年大模型出来以后,用CFS Turbo再去写Checkpoint,我们发现100G还远远不够。”

CFS Turbo底层技术来自于腾讯云自研的引擎Histor。此次升级,腾讯云将CFS Turbo的读写吞吐能力从100GB直接升级至/s级别,让3TB checkpoint 写入时间从10分钟,缩短至10秒内,时间降低90%,大幅提升大模型训练效率。

针对数据访问延迟问题, 腾讯云引擎Histor可支持单个节点GPU与所有存储节点进行通信,进行并行数据访问。“另外,我们通过RDMA(远程直接地址访问)等技术不断优化数据访问延迟,缩短IO路径,最终可做到亚毫秒级访问延迟。”马文霜说道。

同时,腾讯云Histor还可以将元数据目录打散至所有存储节点上,提供线性扩张能力,从而实现文件打开、读取、删除的百万级IOPS能力。

应用阶段,大模型推理场景则对数据安全与可追溯性提出更高要求。 腾讯云数据万象CI是一站式内容治理服务平台,它可以对AI生成的内容进行一站式管理,可以提供图片隐式水印、AIGC内容审核、智能数据检索MetaInsight等能力。

此次升级,腾讯云重点讲述了智能数据检索MetaInsight,其能够基于大模型和向量数据库进行跨模态搜索服务,也就是可以文搜图、文搜视频、图搜图、视频搜视频,并凭借95%以上的召回率,可以帮助用户快速锁定目标内容,提升审核效率。

基于这套AIGC云存储技术底座,腾讯云存储总经理陈峥表示,腾讯自研项目(比如混元大模型)的整体效率至少提升了2倍以上。

目前,除腾讯自己的混元大模型,数据显示,已有80%的头部大模型企业使用了这套AIGC云存储解决方案,包括百川智能、智谱、元象等明星大模型企业。

而针对解决方案升级后的产品价格,马文霜则表示,“不会有变化”。在阿里云和京东云都宣布降价时,腾讯云并没有选择降价,而是“加量不加价”。

“稳定性、高性能,以及性价比,是大模型时代云存储的核心。”腾讯云智能存储总监叶嘉梁说道。

当然,在AIGC时代,云厂商都想抓住这一次用云需求爆发的机会。 除了腾讯云外,阿里云、华为云等其他云厂商在AIGC云存储领域也都有相应的布局。

比如2023年,华为云针对大模型时代的云存储发布了OceanStor A310 深度学习数据湖存储和FusionCube A3000 训/推超融合一体机两款产品。

阿里云面向AI时代的云存储解决方案,也覆盖了底层对象存储 OSS数据湖、高性能文件存储、并行文件存储 CPFS、PAI-灵骏智算服务以及智能媒体管理IMM平台等产品。

可以看到,围绕AIGC的需求,云厂商在云存储领域迅速更新换代。阿里云的思路与腾讯云非常接近,而华为云则加入了自己在硬件方面的优势。

云存储技术仅是云计算众多底层核心技术之一,随着大模型深度发展,云厂商们已经开始在整个PaaS层、IaaS层、MaaS层,都在围绕AIGC进行迭代升级,为行业提供全链路大模型云服务。

云厂商狂飙,争做“最适合大模型”的云

云已经成为大模型的最佳载体,大模型也正在重塑云服务的形态。

马文霜认为,云上丰富的资源、计算、存储、网络、容器技术和PaaS,都能够解决AIGC在各个环节上对资源的诉求。云还能够给AIGC提供成熟的方案和丰富的生态支持,让客户可以聚焦在自己产品竞争力的方向进行开发,加速整体研发效率以及应用落地的速度。

面对AIGC带来的大模型发展浪潮,腾讯集团副总裁、腾讯云与智慧产业事业群COO兼腾讯云总裁邱跃鹏曾表示,大模型将开创下一代云服务,腾讯云要打造“最适合大模型的云”。

自从大模型热潮爆发以来,腾讯云在大模型业务推出上不是最快的一个,但却是最扎实的一个。

在2023年9月的腾讯全球数字生态大会上,腾讯云面向AIGC场景推出了基于星脉网络的大模型训练集群HCC、向量数据库以及行业大模型的MaaS服务。

也就是说,腾讯云从底层智算能力,到中间件,再到上层MaaS,已经实现了全链路大模型云化能力升级迭代,每个业务都很务实。

比如,针对大模型对算力的迫切需求,腾讯云高性能计算集群HCC为大模型训练提供高性能、高带宽、低延迟的智能算力支撑。通过自研星脉网络,能提升40%GPU利用率,节省30%~60%模型训练成本,提升AI大模型10倍通信性能。利用星星海自研服务器的6U超高密度设计和并行计算理念,确保高性能计算。

针对在中间层对数据调度应用的需求,腾讯云向量数据库,可为多维向量数据提供高效存储、检索和分析能力。客户可将私有数据经过文本处理和向量化后,存储至腾讯云向量数据库,从而创建一个定制化外部知识库。在后续查询任务中,这个知识库也能为大模型提供必要的提示,辅助AIGC应用产生更精确的输出。

而针对行业大模型开发与落地应用服务,腾讯云则在整个云底座之上推出了MaaS服务解决方案,为企业客户提供涵盖模型预训练、模型精调、智能应用开发等一站式行业大模型解决方案。

其中,值得一提的是腾讯云是业界最早提出走“向量数据库”路线的云厂商,在大家对大模型部署还尚有技术路线争议之初,腾讯就做了这个选择。目前,向量数据库+RAG(检索增强)也已经成为业内使用频率最多的大模型部署路线。

可以看到,在回归“产品优先”战略后,腾讯云在大模型时代的打法也逐渐清晰——不盲目追随行业,而是基于对AIGC的理解,做自己的产品迭代。

不过,面对十年一遇的大模型机会,华为云、阿里云、百度云等云厂商也都在2023年争先恐后地布局,腾讯云的压力并不小。

过去一年,华为云构建了包括以华为云昇腾AI云服务为算力底座、行业首个大模型混合云Stack 8.3,在MaaS层用盘古大模型在千行百业中落地。华为云还上线了昇腾AI云服务百模千态专区,收录了业界主流开源大模型。可以看到,华为云集成了算力、政企、行业、生态等多方面的优势,可谓火力全开。

阿里云则是国内大厂中唯一做开源大模型的公司,说明心态最为开放、做平台的决心最强。 阿里云在智能算力底座之上,打造了以机器学习平台PAI为核心的PaaS服务,以及上层MaaS服务。其中,在开发者生态层,截至2023年11月1日,阿里云发起的AI模型社区魔搭已经有超过2300个模型,开发者超过280万,模型下载次数也超过了1亿多次。

云厂商们掀起了新一轮厮杀,是因为大模型的红利。

AI的发展正在带动用云需求的增长,并已成为云计算产业发展的第二增长曲线。毕竟,大模型的算力使用几乎可以说是“无底洞”,此前业界曾预测OpenAI训练GPT-4可能使用了大约10000-25000张GPU,以及微软的云上算力支撑。

因此,在AIGC时代,各大云厂商都在探索如何基于AI重塑云计算技术和服务体系,开辟全新的服务场景和服务内容,从而能够抓住这轮AI大模型升级发展所带来的机会。

大趋势下,Cloud for AI不仅是云厂商的新机会,也是必答题。陈峥也表示,云厂商现阶段所能够做的就是提前进行技术产品布局,并将整个数据价值开放给客户,从而让客户更好的利用数据。

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
(0)
上一篇 2024年4月11日
下一篇 2024年4月11日

相关推荐

  • 抖音不再陪小杨哥“疯狂”

    就在抖音电商峰会一周前,快手一哥辛巴炮轰小杨哥,指责其在质检、售后、赔偿态度等方面存在问题,模仿辛选的商业模式,以及小杨哥此前销售的一些产品如茅台酒、梅菜扣肉等存在质量问题,如果小杨哥不处理,他将用一亿元替小杨哥进行赔付。
    在2022年9月的抖音电商作者峰会上,刚转型直播带货一年的小杨哥,第一次获得了抖音电商的卓越个人奖。
    在短视频时代,抖音成就了小杨哥,正如小杨哥感谢抖音那般,“它具有很强的开放性和包容性,它给每一个人都提供平等展示自我的机会”,小杨哥也为抖音带来了很多用户,高峰时期小杨哥抖音粉丝量超过了1.2亿。

    2024年9月20日
  • 科隆新材IPO:业绩波动、内控缺位或成上市“拦路虎”

    上半年业绩表现不佳
    科隆新材的主营业务是液压组合密封件和液压软管等橡塑新材料产品的研发、生产和销售,以及煤矿辅助运输设备的整车设计、生产、销售和维修,同时也为风电、军工、高铁等行业客户提供定制化橡塑新材料产品。
    同时,如果未来煤炭主体能源地位被快速替代,下游客户新机装备需求减少,科隆新材又未能拓展旧机维修业务,或是未能适应市场变化、新技术和新产品未能顺应市场发展趋势,那么科隆新材就存在橡塑新材料产品经营业绩下滑的风险,甚至可能会对公司整体经营业绩造成不利影响。

    商业密码 2024年9月20日
  • 淘宝倒逼新风向:一场电商减负运动

    但售后服务同时也是电商变革最复杂的一环,开店、佣金、流量推广都只是商家与平台间的服务交易,售后却涉及平台导向、商家成本和消费者体验三方,且受社会消费情绪变化、平台生态优劣的直接制约,是各方利益最难平衡的地方。
    我们也发现,在这个过程中,电商平台的自我角色定位也在调整,从推出「仅退款」的游戏规则制定者、大家长,逐渐过渡到生态系统的设计者、平衡商家和消费者利益的服务商。

    商业密码 2024年9月20日
  • 博浪AI时代,阿里、华为“硬碰硬”

    根据申万一级行业分类,阿里巴巴概念板块156家上市公司分布于22个行业,其中传媒、电子、商贸零售、通信、医药生物分别聚集了50、25、13、11、9只概念股。
    根据申万一级行业分类,华为概念板块896家上市公司分布于28个行业,其中,计算机、电子、机械设备、通信、电力设备分别聚集了220、193、92、65、61只概念股。

    商业密码 2024年9月20日
  • 员工挂“罪牌”戴纸托手铐引质疑,80后王云安创立的古茗又“翻车”了

    员工头挂“罪牌”手戴纸托手铐,古茗玩梗惨遭翻车
    近日,古茗员工头挂“罪牌”、手戴形似手铐纸托的视频,在社交平台上广泛传播,引发诸多网友热议。
    至于上海,王云安认为该市场毗邻浙江,因此会有一定的消费者基础,但是上海奶茶行业竞争激烈,外卖比例很高,相对来说门店的收益更难做好,“我们在进省会城市,以及大的一线城市的时候,我们一定是做好准备了再去的,比如上海的消费者到底要什么,我们进去应该怎么做才可以让更多的店做得更好,古茗能够给上海的消费者带来什么样的不同呢,这些是我们要去思考的。

    商业密码 2024年9月20日
  • 古井教父悲情收场

    1986年之后的十年里,古井的资产增长了18倍,利润增长了24倍,王效金也因此被称为“古井教父”,甚至是“中国酒界第一人”。
    这款拥有1800多年历史的安徽名酒也许永远也不会再与茅台并肩了,但如今也可以称得上再度振兴,尤其是这一切还建立在王效金的固执和自大,当年差一点毁了古井贡酒的基础上。
    他甚至曾经在公开场合说过,王效金就是古井,古井就是王效金,“效忠”古井就是效忠他。

    2024年9月20日
  • 直言AI不如原创,吴克群凭什么?

    吴克群的原创音乐哲学
    来到《音乐缘计划》,吴克群分外真诚。
    如此来看,吴克群选择参与《音乐缘计划》这一原创音乐综艺,正是源自于他与原创音乐人之间的惺惺相惜。
    在分享创作心得、探讨音乐理念时,吴克群不再简单是一个综艺节目的嘉宾,他也是作为一名原创音乐人出现在舞台上,让一切热爱与纯粹都具象化。
    于是,面对当下音乐生态的顽疾,新生代音乐人的困境,吴克群会在稳定的音乐事业之外,积极参与各种原创音乐活动。

    商业密码 2024年9月20日
  • 专门“收割”妈妈们的特百惠,被时代抛弃了

    02特百惠被时代抛弃了
    《新品略财经》记得三四年前,在深圳龙华区某购物中心还开了一家特百惠的店,也曾在店里买过东西,当时的印象是特百惠的产品卖得还不错。
    在《新品略财经》看来,特百惠既是时代的产物,也是被时代抛弃的产物,这与消费环境、消费需求、市场竞争,乃至是与特百惠的传统商业模式等各方面密切相关。
    从产品层面来说,特百惠是化学科技运用到日用物品的代表案例,在特百惠诞生的年代,家庭有着食物保鲜难的痛点,特别是在冰箱不普及的年代,特百惠犹如“刚需”般存在。

    商业密码 2024年9月20日
  • 县城消费的另一面:喝奶茶的少了,钓鱼的多了

    图源:作者拍摄

    图源:作者拍摄
    刘子涵继续说道,现在同学之所以不愿意喝新茶饮,还有一部分原因是,学生们对新茶饮的口感愈发失去新鲜感。

    图源:作者拍摄
    但并不是所有县城零食折扣店都这么火爆,中秋节假日当晚当地赵一鸣零食折扣店偌大的门店看不到太多顾客,收银台前也仅有几个顾客在排队结算。

    图源:受访者提供

    有人为钓鱼投入千元,有人干起代购
    和新茶饮相对冷清、零食折扣店门店客流分化不同的是,部分业态在县城仍迎来火爆。

    2024年9月19日
  • 闪回科技二度冲刺港股,深陷盈利困境,雷军看走眼了?

    在回收生意的上游,闪回科技通过闪回收从消费电子厂商、零售商、运营商以及C端消费者处获取二手手机供给。
    在下游销售端,闪回科技以“闪回有品”面向B端商户和消费者进行二手机和新机的销售,公司接近90%营收由闪回有品贡献。”

    B端渠道的手机厂商是闪回科技高增长最大的助力,但与之相伴的是,面对强势的手机大厂,闪回科技没有议价权,还需要向手机厂商支付高昂的保证金和促销服务费。

    2024年9月19日