文丨 姚悦 郝鑫
编丨王一粟
9月20日,华为宣布“全面智能化”,这家科技巨头的战略脚步又迈入了一个全新的阶段。
华为副董事长、轮值董事长、CFO 孟晚舟在全联接大会2023上提到,华为全面智能化(All Intelligence)战略将在持续深耕AI根技术的基础上,打造坚实算力底座,为世界构建第二选择,使能百模千态,赋能千行万业。
全球都在加速进入数智化快车道,华为的全面智能化战略,有何不同?
-
这次智能化战略,既仰望星空,也脚踏实地,对AI、算力等基础技术和设施建设的强调,与加速“行业落地”同等重要;
-
在智能化的核心业务上,大体可以分为“硬件”和“软件”两个部分,主要由汪涛主导的ICT基础设施和企业BG板块,以及张平安主导的华为云两个大板块负责落地;
-
在基础技术的研究和积累上,华为是中国积累最为全面的公司,覆盖从感知、连接到计算、AI等几乎智能全产业链。今年在核心技术上,尤其重视对底层算力的建设、AI根技术的完善,以及华为云系统级能力的提升;
-
在行业落地上,华为发布九大行业智能化解决方案,一边通过行业军团,重点“爆破”,一边通过华为云,用盘古大模型拉动行业落地。两条线并行,加速深入行业智能化;
复盘整个华为的战略,我们才能看出,麒麟芯片、昇腾计算集群、盘古大模型的出现并非偶然,但同时,华为又在以极其开放的心态,在聚拢“一切可以团结的力量”,平台的野心,智能化的宏图跃然纸上。
从2016年,华为在首届全联接大会上首次全面阐述华为云战略定位,开启了数字化转型之路;到2018年,华为正式发布AI战略和全栈全场景AI解决方案;再到2020年行业数字化、智能化爆发,华为通过联接、云、计算、AI、应用等“5机”协同,实现了人、物、信息全方位多层次的联接。
从通信侧杀入,作为AI、云计算技术和产业布局的“后来者”,华为可谓是来势汹汹。光锥智能将分为“硬功夫”和“软实力”上下两篇,解读华为全联接大会2023,看懂华为的智能化战略,也就看懂了智能产业的未来。
从哪里来不重要,到哪里去,才重要。
不盲目堆卡,怎么夯实算力底座
大模型爆发,全球智能化都在被算力“卡脖子”,算力的重要性不言而喻,有过切肤之痛的华为更是明白其中要害。
此次,华为发布全面智能化战略,最重要的一步,就是加强算力底座的能力。 昇腾AI计算集群再次宣布升级——发布Atlas 900 SuperCluster计算集群,可支持超万亿参数的大模型训练。从Atlas 900 SuperCluster升级情况来看,华为显然在加紧迎接计算集群“万卡时代”。
2019年,华为就发布了Atlas 900 AI训练集群,当时由数千颗华为自研昇腾910(主要用于训练)AI芯片构成。今年7月,华为宣布计划今年年底或者明年年初,Atlas 900要做到超过16000张卡的集群。
架构上,Atlas 900 SuperCluster改变了传统计算集群的服务器堆叠模式,实现算力、运力、存力的一体化设计。
基于冯·诺依曼架构,数据存储与运算单元分离,计算集群算力提升受限,功耗增加。如果将计算集群比作一个人的话,他收到每条计算指令,都得回过头去翻指导手册(内存),随着模型参数、复杂度、数量飞升,往返及翻阅手册无比频繁,显然“事倍功半”,甚至有可能“崩溃”。
影视剧《三体》中,秦始皇训练真人组成的大型计算机,就因信号速度过快而崩溃
所以,一体化的架构设计,避免了存储单元和计算单元之间频繁转移数据,减少了不必要的数据搬移造成的功耗,提高计算效率,也就更容易突破算力瓶颈。
计算集群是将多个服务器组合在一起,服务器之间的通信效率亦非常关键。
但是,之前被广泛用于服务器之间数据通信的以太网存在一些明显缺陷。最大的问题就是,无法保证传输时效性要求。
因为其采用了带有冲突检测的载波侦听多路访问协议,这种协议机制就像一个“强迫症”的数据发送员,只有等其他信息通路空闲,才会发送数据,发送过程也会监听和其他通路有没有冲突,一旦冲突立马停止发送数据。
这种看似“负责”的协议机制,存在两大易发隐患。
第一,由于只能监测出冲突,没有办法避免冲突,所以冲突多了,就停发数据。
第二,如果某一通路大量发送数据,其他通路就只能等着,造成通路空闲浪费。这显然不太适用一些需要实时响应的场景,如工业控制、在线游戏等。
而且,尽管以太网技术不断演进,但铜缆网线的带宽和传输距离,成为其很难突破的瓶颈。
Atlas 900 SuperCluster采用了华为星AI智算交换机CloudEngine XH16800,其具备高密的800GE端口能力。800GE端口是华为推出的新的数据中心交换机接口,目的就是实现更高的数据传输效率和更低的延迟。
使用CloudEngine XH16800,并采用两层交换机作为网络设备,就可实现2250节点(一个节点为一个服务器)超大规模组网(等效于18000张卡),且不再需要通过算法或技术刻意减少网络中数据流量等来保证效率。
此外,华为常务董事、ICT基础设施业务管理委员会主任、企业BG总裁汪涛介绍,基于华为在计算、网络、存储、能源等领域的综合优势, Atlas 900 SuperCluster从器件级、节点级、集群级和业务级全面提升系统可靠性,将大模型训练稳定性从“天”级提升到“月”级。
另外,硬件的性能更需要软件释放。
华为此次同步发布了 CANN 7.0 异构计算架构,目的是“更兼容,更开放”,不仅兼容业界的AI框架、加速库和主流大模型,还开放了底层能力,让AI框架和加速库可以更直接地调用和管理计算资源,让开发者自定义高性能算子。
同时,华为还升级了 Ascend C 编程语言,简化算子实现逻辑,缩短融合算子的开发周期,让AI模型与应用开发更快速。
可以看到,面对大模型的开发,华为对于算力底座的打造是比较全面的,不仅是在盲目堆卡,更是通过集群、网络、软件等全面优化算力的速度和稳定性。
感知和链接,华为的看家本领如何支撑智能化?
众所周知,华为起家于通信产业,其多年积累的通信能力,已经成为最核心的“数据高速公路”。不仅如此,华为在近年来也积累下了“数据获取”的感知能力。
从开头的华为行业智能化参考架构中,我们可以看到,这两层最基础的能力,正在和算力底座一起,支撑起智能化的基础。
感知是一切物理实体智能化的前提,更是行业智能化转型的基础。
华为在智能感知方面的布局,最早开始于“智能安防”,聚焦在公共安全领域,后技术升级为“AI+视觉”,拓展管理和运营领域,部门名称也改为“机器视觉”。
今年年初,华为再次将业务部门“华为机器视觉”改为“华为行业感知”,就是为发挥端、边、云、网等多产品组合优势,以及让视觉感知、光感知等多技术融合。
多年来,华为的感知技术已经覆盖雷达、视觉、温度传感、气压传感、光纤感知等多种类型的感知设备,可以实时在线获取数据。
但要做到感知“无处不在”,面临一个很大的阻碍——各类感知终端种类繁多,协议七国八制,导致数据难互通,难以支撑复杂的业务场景。
要实现“车同轨”,这就必须要提到鸿蒙感知, 这是以鸿蒙智联操作系统为核心的智能终端系统。
相比于传统“物联感知终端操作系统”系统割裂造成的“数据碎片化”、“数据孤岛”,鸿蒙系统基于一套操作系统的灵活组合,让全场景设备系统统一内核。也就是,无论设备大小,只需要一个操作系统。
鸿蒙感知可以使终端设备横向互通。鸿蒙系统采用分布式软总线技术,这种技术可以实现各种设备的协议差别,被协议货架和软硬件协同层面所屏蔽,总线中枢模块负责解析命令以完成设备间的发现和连接。就像是团队里,队员之间最大程度消除隔阂,最大程度被领导协同调配。
这种技术支持设备间无缝协同连接和数据传输,用华为自己的话讲就是,“多个感知设备自动协同,可以像一个物理设备”。
除了鸿蒙感知,也还会用到多维感知、通感一体等技术和部件。但最终目的都是开放终端生态,将协议复杂、系统孤立的终端有机协同起来,获取完整、全面的信息,以支撑后续的智能化业务处理。
通信设备起家的华为,在通信领域的能力积淀更深厚,技术布局涉及卫星通信、物联网、云计算等,其中5G技术被认为是全球领先水平。近期,华为完成5G-A全部功能测试;近距离无线连接技术星闪,能够覆盖两倍于蓝牙的距离,百个量级的直连设备数,适用于新能源汽车、工业制造等领域,为“万物互联”提供联接能力。
基于这些能力,华为可以全面提升行业智能化的网络通信效率,畅通智能化系统的道路。
如果将行业智能化系统比作繁复庞杂的物流系统,数据上传、数据分发、模型训练等,都涉及将各种“包裹”在这个系统中传送,如若“包裹”遇到丢失损坏等问题,就会引发系统性问题。
例如,在数据中心中,AI训练集群网络丢包率会极大影响算力效率,万分之一的丢包率会导致算力降低10%,而千分之一的丢包率会导致算力降低 30%。
因此,庞大的行业智能化系统中,必须保证绝对的高效联接,主要涉及到接入网络、广域网络、数据中心网络。
接入网络,承担着感知设备的接入及汇聚到数据中心网络或广域网络的职责。华为通过5G-A、F5G Advanced、Wi-Fi 7、超融合以太 (HCE)、IPv6+ 等技术,实现稳定、可靠、低时延的感知设备接入。
具备多分支机构的大型企业存在大量的数据跨分支机构互传的场景,如训练数据上传、算法模型下发、业务应用下发、业务数据传输等,相应的需要在分支机构之间提供稳定、大带宽的广域网络。
企业可根据自身的实际情况,选择租用运营商网络或自建广域网络的方式,获取稳定、可靠、高带宽的多分支机构间的网络联接能力。
随着AI大模型的兴起,大模型训练成为数据中心的一个重要职责,其超大规模的数据分析对数据中心的网络也带来了新的挑战,传统的基于计算机总线的数据中心网络技术已无法满足大模型训练的要求。
因此,不仅是像Atlas 900 SuperCluster计算集群硬件需要升级一体化架构,数据中心网络也需要新的网络架构,打通各协议间的壁垒——让“内存访问”直达存储和设备,并统一芯片侧高速接口,打破“带宽墙”,让端口能够复用。
所以,基于在感知和联接等方面的技术布局,华为在许多行业数字化、智能化的深水区中,能相对单纯的云厂商,覆盖到更“边缘”、更“难搞”的领域。
行业军团,重点“爆破”
在算力和连接的基础设施搭建好后,面对千行万业,需要有更精准的应用突破口。
“在行业智能化‘火箭’中,数据是燃料,算力是引擎,算法是加速器, 应用部署是发射装置 ”,汪涛指出。
会上,华为发布了金融大模型解决方案、政府大模型解决方案、智慧工厂解决方案、新能源功率预测AI解决方案等,涵盖了金融、政务、制造、电力、铁路等九大行业智能化解决方案。
从目前华为覆盖的行业中,足以见得其智能化的思路: 除金融业,政务行业外,其他八大行业的数字化程度都并不高,很难通过纯软件的形式突破进去,而是需要从底层基建开始做起,这或许也是华为要走的差异化道路。
数字化程度越高的行业,智能化速度也越快。金融行业素有数字化“练兵场”的称号,业内人士也戏称“技术到底好不好用,去金融行业的战场磨砺一圈便知分晓”,这也导致了很多企业把金融场景落地作为了第一站。而政务行业华为深耕多年,从数字化时代延续到智能化时代,经验的积累得以爆发。
除去这两个行业,光锥智能发现,其余的行业都是进入壁垒极高、处于数字化深水区的行业。
井工煤矿、勘探开发、公路、铁路等,这些行业不要说数字化,信息化的程度都很低。一位煤炭行业人士告诉光锥智能:“很多矿场还处于最原始的阶段,一旦探入到深井700米之下就没了信号,工人生死未知,更何况数据搜集了。”
像煤矿这类行业不在少数,这也说明,很多行业的智能化不是单靠大模型就能解决的,还要从基础设施层做起。
从头做起,也意味着更依赖于底层基础设施的搭建,以煤矿行业为例,从自动化时代的2G、3G、工业以太网到信息化时代的独立服务器、WiFi、4G、5G,无论哪个阶段ICT设施都是其发展的基本。进入智能化时代后,对硬件和软件的需求和要求也来到了一个更复杂的层次,WiFi7、5G、云、AI、全联接、全感知、全计算等技术一网打尽。
煤矿行业也可以一窥智能化时代的特性: 数字化时代以PaaS、SaaS等软件形式交付,而智能化时代则没有办法“轻量化”,必须伴随着硬件基础设施的升级。这就好像从传统手机到智能手机,从燃油车到智能车的变迁。
以此为思路,似乎能够理解华为为何更重视“软硬件一体化”交付方式。据华为内部人士反映,“华为几乎不单独卖软件,企业BG是以硬件为核心带动软件销售,华为云计算是以软件为核心带动硬件销售。”
从数字化迈向智能化,华为特色的路径也逐渐开始清晰:以硬件切入,打通感知层,在此基础之上打造各类行业智能化解决方案。
从技术底座到上层行业场景应用,跟其他云计算大厂相比,华为的智能化显然做得更重。软硬一体的逻辑中,软件可以批量化复制、轻量化交付,但硬件却往往相反,重渠道、重服务。
为了在业务中跑通软硬一体的逻辑,华为培养起了一只庞大的行业军团。
2021年10月29日,华为创始人任正非亲自授旗,第一批军团组建成立,打响了华为进军行业的“第一枪”。
据有关媒体报道,2021年至2022年间的几个月时间内,华为三批、二十个军团拔地而起。
在华为军团中,分为行业军团和产品组合军团,其中行业军团直接面向行业客户,大多隶属于企业BG,产品组合军团则在研发体系之下。但无论哪一类军团,目标都很明确,都要面向市场、寻找客户。
他们身上主要背负着两个任务, 一是要打入到购买解决方案企业的内部, 做好售后工作,解决硬件安装、测试、升级、维护的问题; 二是要不断开拓销售的渠道, 以渠道的优势撬动华为更多解决方案的交付。
跟普通的销售团队比,华为的行业军团既专业又更加深入。普通的销售团队,销售人员占了大比重,而华为行业军团里包含了科学家、研发专家、服务与交付人员、行业专家、销售人员等,无论是从技术还是商业上都能提供支持。
这些行业军团也离企业更近,往往在一座城、一家企业一头扎进去就要持续好几个月的时间。集装箱码头作业分为几个环节?每个环节分别有什么痛点?AI运用了哪些技术?具体到视觉检测、运筹调配技术是怎么应用的?
诸如此类问题,都在行业军团的实战中,一次次被打透,华为也凭借此渗透至别人难以“啃动”的行业。
据汪涛称,“目前,华为通过行业军团化运作,广泛联合业内伙伴,已经面向城市、金融、交通、制造等20多个行业打造了200多个智能化解决方案,并在一系列的智能化项目中得到应用。”
“全面智能化战略+技术底座能力+行业军团’爆破’能力”,迎战智能化时代的新考验,华为打出了一套“组合拳”。