大批建成后的算力如何运营消纳?成为业界越来越关注的焦点。
文|赵艳秋 周享玥
编|牛慧
8月28日至30日,2024中国国际大数据产业博览会正在贵阳火热进行中。“产业链上下游的人都来了。”一位行业人士观察,与以往不同,这届数博会上,数据要素、智算基础设施建设,正在和智能化、大模型行业应用等一起成为被密集讨论的话题。
各种专业论坛上,人潮涌动,展区内人头攒动,大家交换着各地的项目信息和技术方案。
业界观察,2024年,智算中心建设热持续升温。根据数智前线的不完全统计,今年仅前七个月,国内就有140多个智算中心相关中标项目,且还有更多项目正在路上。
最近一个月,各地智算市场又有不少新动态。8月中旬,总投资13.5亿元的两个绿色智算中心项目在新疆石河子签约落地并同步开工建设;下旬,华中地区的湖北襄阳官宣,该市首个智算中心正式启用;紧接着,地处东北的哈尔滨也传出消息,号称“国内最大的超万卡智算中心”,将在月底投用。
各地都在紧锣密鼓地上马各种智算项目,不管是地方政府、央国企,还是各产业链企业,态度都十分活跃积极。大家都把它看作新质生产力发展的关键抓手,又或是招商引资的有力手段。
但与此同时,随着建设的不断深入,市场上也出现了一些共性问题。8月初在北京举办的一场气氛热烈的智算大会上,某大型央企就曾坦言,已投产的智算中心,目前成本和经济效益面临较大挑战,呼吁产业链更多去使用算力。
智算中心的建设如何更加务实?大批建成后的算力如何运营消纳?成为业界越来越关注的焦点。
01
算力焦虑,有解了吗?
去年,大模型的爆发,快速搅动了智算市场。“过往,百P的智算中心大家都不知道怎么去用,但大模型火起来后,社会上对算力的需求,处于疯涨态势。很多地方政府因此有信心去投入更大规模的智算中心。”一位资深行业人士告诉数智前线。
今年以来,智算中心的热度有增无减。尤其是地方政府和以三大运营商为代表的央国企,都在大举投入。比如,根据IDC的统计,截至今年6月,政府参与建设并已投产的智算中心数量已接近百个。
在这个态势下,更多玩家,在产业链上迅速聚集、扩张。一位智算中心施工承包商告诉数智前线,大家都在疯狂找项目、谈合作。
但与此同时,随着智算中心如雨后春笋般涌出,越来越多的智算算力如何用起来,成为关注点。“最终还是算力消纳。”一位供应商在向数智前线介绍完自家方案后,旋即感叹称。
“算力问题现在是双重焦虑,没有的时候焦虑,有了也焦虑。”北电数智战略与市场负责人杨震坦言,过去一年间,作为北京电控旗下一家AI原生企业,他们接触了大量政府和企业客户,能明显感觉大家对算力消纳的需求越来越迫切。
毕竟,此前的一波智算中心建设,已经踩过一波“高空置率”的坑。一位行业人士透露,2021、2022年左右有一些项目建成后,利用率甚至平均不到30%。
在新一波建设热潮中,业界也看到了隐患。“我们公司接待了很多外地来的客户,也想建智算中心,但一探讨发现,他们中有很多基本的概念都不知道。”一位智算服务商坦言,这让他们担心,在没有足够正确的认知和科学规划的情况下“一哄而上”,未来会不会很快出现“一地鸡毛”的情况。
过去,只要有钱、有人,自己也能搞一个小型云计算中心。但智算中心不同,发展还处于早期,从规划、建设到运营每一个环节都极其复杂,充满挑战和风险,远不是简单堆一堆GPU服务器就完事了。
与此同时,在如火如荼的智算发展建设过程中,技术层面仍有大量卡点。“大型智算中心是重大科技攻关的重要基地,从底层芯片、数据原材料部分开始,再到工具链、大模型的能力制造部分,往上是智算云的能力投放,及液冷、网络、存储等各个基础设施技术层面等等,以及最终如何真正服务于产业,需要整体的规划设计。”杨震说。
仅以电力问题为例,今年上半年,为应对人工智能和数据中心的电力需求,美国电力开发商新增发电量20.2GW(1GW=100万KW),同比大增21%,创下了近20年以来的最大增幅。有企业更是测算,马斯克最近落成的10万卡AI集群“孟菲斯”一天的耗电,相当于北京东城区一天的电量。
实际上,为解决这些问题,业界已开始普遍关注智算中心的科学规划,合理运营。今年7月,国家信息中心信息化和产业发展部主任单志广就提醒称,在一体化构建算力体系过程中,要避免重建设、轻需求,应以应用为导向,提高整个算力中心的利用度。
一些地方也正通过算力券的方式拉动算力需求。一些投资方则会在招标时就提出,项目承建方要做相应运营KPI的考核。但光做到这些,还远远不够。
杨震认为,虽然市面上都倾向于通过包销或招商引资的思路来解决问题,效果却并非能够立竿见影和可持续发展。比如,一些地方靠着算力券等方式能短暂拉动需求,但由于产业没有实现“自生长”,后继力量不足。这些客户开始主动找上他们,协商对其算力进行有效纳管、提速和运营。
一些业界人士开始反思和总结,各地真正需要建设的并不只是一个智算中心,而是以智算中心所在园区为核心,辐射产业链条上下游,聚集产、学、研融合的产业集群,形成当地的人工智能产业生态。
“长远来看,‘以终为始’地打造一个健康良性的智算中心商业闭环,或是更为关键和有效的方式。”杨震告诉数智前线。
为此,在帮助地方政府构建智算中心时,业界已经开始呼吁,一开始就要与当地的产业经济紧密结合,进行建设规划与生态引入,将人工智能产业链真正为当地经济所用,形成良性循环。
02
商业闭环,如何跑通?
对于各地政府、企业而言,如何以终为始打造智算中心的商业闭环,本质上还是发掘人工智能的应用场景,实现当地产业或企业智能化转型升级。
“我们经常讲,与其给政策,不如给一个商业闭环的机会,让人工智能企业能自循环长起来。”杨震说。比如,地方政府最初可把自身一些数据、场景释放出来,形成一些人工智能标杆,再进一步与当地产业、头部企业结合,将雪球越滚越大。
不过,要让政府和企业来打造标杆,业界先要从人工智能三要素——算力、数据和算法上做好准备。目前这些要素中还存在大量卡点。
比如,在算力方面,为支持人工智能产业爆发的需求及自主发展,采用多种国产芯片,构建更大的集群已成为趋势,但各地最早一批落地的国产算力平台利用率不高。很多用户反馈,国产芯片的生态还有很大发展空间,它们架构不同,工具链、软件、算子都自成一体。把大模型移植到这些平台上,要做大量工作。
相较而言,英伟达市占率在80%~90%,它多年对CUDA生态的投入,使得全球框架、算法和应用的创新及优化,无一例外都落在了它的平台上。今年英伟达还突出了一个声明:禁止其他硬件平台运行基于CUDA的软件。这意味着,其他芯片厂商更要孤军作战。
为了将底层算力沟壑填平,并实现大模型自如、流畅地运行在不同平台上,一些厂商已经开始行动。例如北电数智针对性地推出了“前进”和“宝塔”两款产品,“初衷就是有效地帮助国产芯片更好集群作战。”杨震说。
在这个过程中,要克服很多技术难关。北电数智产业生态负责人吴岳举例说,他们开发了适配层,弥补、屏蔽国产芯片在软件栈上的差异,对齐算子精度;还通过开发高性能算子、针对主流框架进行优化加速,将国产芯片性能提高到2~3倍。
目前大部分异构集群本质上还是割裂的,作为一家公共智算中心的规划设计与建设运营方,北电数智希望能够打消“算力烟筒”。“按Token计费的方式配合我们的混池技术,我们能把智算中心的利用率,提高到两倍左右。”
“这里有很多笨功夫,但我们认为是必须要做的。”吴岳说。只有跑通这些,才能让国产芯片更好地卖起来、用起来,不断获得更好的生态支持。
另外,决定人工智能终局的关键要素——数据方面,根据统计,中国开源数据集总量只是美国的1/9,80%以上的高质量数据掌握在政府、机构和企业手中,由于缺乏令人信任的数据空间,很多数据拿不出来,流通不起来,也用不起来。而人工智能是一个热数据产业,高质量发展的基础在于高质量数据的流通。业界目前正在为此进行大量探索。
“这里面最关键的是保护数据提供方的权益。”杨震分析,“现阶段市场不成熟,大家认知也拉不齐,最主要的还是把规则和机制搭建起来。”比如像医院这样的公共机构,其大量高质量数据如果要真正能够为公众创造价值,除了需要一个安全可靠的平台主体,能够把数据供出来之外,在如制药、诊疗、康养等不同领域的使用确权,及数据价值确定与分配都是要面对和解决的问题。
于是,基于上述考虑,他们专门打造了一个产品——红湖·可信数据空间。杨震认为,如何在这个数据空间中,探索流通规则才是核心。相较于过去的公共数据空间,可信数据空间除了强调隐私计算、区块链等数据安全技术,更关键的是通过上链存证、数字合约等能力,让供方和需方能直接对接,对数据使用用途、使用次数进行约定,并用技术手段进行监督,规则建立后,就能形成闭环。
目前,大部分企业对数据交易的规则、认知是没有拉齐的,还有不少规则仍需去不断建立。比如,在科研机构面向同一个研究领域,如果一方把所有洞察数据共享,就应该有权访问空间中同一研究领域的其他科研机构的洞察数据,这种规则建起来后,能把数据洞察有效叠加,让该领域的研究进展得以加速度提升。
此外,面向企业级数据流通变现需求,需要通过第三方可信主体保障数据隐私和规避合规风险的基础上,能够对接有实际场景应用的数据需求方,挖掘数据价值,在可信的数据生态系统里实现数据资产的商业转化。
在算法方面,要打开数据的同时打开用户的场景,业界认为垂类模型和场景模型是当下切实可行的办法。北电数智布局的垂类模型矩阵,多与民生相关,如政务、医疗、文化、教育和交通等。比如,北电数智揭榜挂帅北京市某委办局政务大模型项目;与三甲医院合作签署“皮肤数字医疗协同项目”,共同探索大语言模型、多模态AI技术、国产AI芯片等在医院的落地应用等;与上市龙头工业企业合作供应链模型等。
“这个时代需要有人善于干产业组织、产业攻坚的事,把底层的东西磕明白了,上层的东西就好解决了。”目前,北电数智正在联合生态伙伴,以打造AI工厂的智算中心模式,在AI产业链的每一层都打造产品,形成对外的全栈服务。
03
智算中心,为何需要“打开”?
除了算力、数据和算法层面的攻关,生态聚合也极为关键,这已成为产业共识。
“对于整个行业来说,过去20年中,我从未看到任何一个技术浪潮,能够像这一轮大模型,从上到下对技术和商业产生如此大的颠覆。”一位从业者感叹,所有从业者都转向全面技术创新。开放协作、产学研联合等方式变得极为重要。
“人工智能产业,需要通过项目,用生态的做法把大家引进来,一块干。”杨震认为,“这是我们一个最深刻的、最底层的理念和做法。”
由北电数智规划设计与运营的首个星火·智算的标杆项目——北京市数字经济算力中心,与通常的智算中心不同,整栋楼并没有都堆满机柜、服务器、芯片等基础设施,智算中心一层采用了开放式设计,在这里有算力展厅、算力剧场、联合实验室,以及筹备中的产投孵化计划。这也是国内智算中心的首创。
这样的设计,寓意是将智算中心的产业聚集高地打开,将产业要素充分聚集起来,实现技术的攻关,以及生态的聚合,最终将人工智能的场景尽可能打开,让产业形成闭环。智算中心不再仅仅是算力提供地,而是人工智能产业的孕育基地。
“本质上我们不是运营智算中心,是在运营人工智能产业生态。我们的目标是成为生态的一级节点。”杨震说。过去一年,北电数智每个月几乎接触100家生态企业,目的是能够快速形成初具规模的人工智能产业链,为企业和政府客户,形成“即插即用”的人工智能赋能平台。
目前,通过这些技术攻关和生态聚合,北电数智已开始帮助各地智算中心进行规划建设和运营。
智算中心在规划初期就要考虑各地的产业结构。比如,某地以旅游业为主,需要结合文化模型,对文博、文创赋能。但离它很近的另一座城市,就有制造业龙头,人工智能要考虑为制造业提质增效。
智算中心建设为什么一开始要考虑当地的产业经济?这是因为它涉及智算中心的规划设计。比如各地产业不同,有动漫、机器人、无人智驾、低空经济……它们对智算芯片的需求不尽相同,不同芯片之间的配比也不同。
“像低空经济,它要做大量仿真计算、图形渲染和AI计算,这其中所需的芯片如何去配比,就有很大的学问。”吴岳说,这中间,怎么兼具训练和推理给出芯片选型建议,是专业的事。而只有前期科学的规划,后面才能更好地运营。
为了进一步更深入地帮助各地智算产业运营,他们还在机器人、AI制药、工业、仿真等垂直行业开发者层面,花了更多心思。数智前线获悉,北电数智即将攻关专用领域大模型算子,让当下只能跑在英伟达算力上的专用领域模型算子,转向国产算力平台。
而这一切工作,将进一步深入打开各地产业中的人工智能场景,通过在算力、算法、数据三大要素的层面充分打开,以打开的理念建设与运营智算中心,充分拥抱AI产业链各个层面的生态,以此,智算中心才能够成为人工智能产业长远发展的沃土,人工智能也能够真正落入当地产业经济发展环节。