算力时代新支点 DPU再造价值链
集微网报道 裹挟于AI大模型引起引发GPU热的宏大叙事中,DPU好像褪却了往日的光环。但其实,随着大模型作为一种新型基础设施逐渐普及,AI将赋能千行百业,算力需求爆发性增长,GPU的火热也在帮衬DPU,可谓处在同一战壕的“兄弟连”。
以英伟达H100为例,8颗GPU需要8个网络适配器和2颗BlueField3,相当于10个DPU。在国内市场有数据显示,未来几年云与数据中心领域国内服务器出货量每年将维持在500万台左右,其中DPU渗透率在10%左右,单台服务器可以配置一块到多块DPU板卡,预计每年DPU需求量将在100万片左右。
与算力需求与日俱增的是从智能网卡“进阶”而来的DPU,还需全面解锁卸载CPU算力的新技能,在架构、软件和应用层面打持久战。
DPU成AI大模型时代新支点
自ChatGPT横空出世掀起国内百模大战以来,拉动算力需求出现爆发式增长。据IDC预计,2021-2026年期间,中国智能算力规模年复合增长率达52.3%,预计到2026年智能算力规模将进入每秒十万亿亿次浮点计算(ZFLOPS)级别,达到1271.4 EFLOPS。
而且,在生成式AI风起云涌之际,算力不仅成为新质生产力关键,也成为大国博弈的核心竞争力。加之我国东数西算工程的推进,算力网络、算网融合等创新技术不断衍生,对异构算力芯片也提出了新的挑战。
中科驭数高级副总裁张宇认为,算力核心来源将是三U即GPU、CPU、DPU一体,CPU实现通用算力,GPU释放智能算力,DPU支撑基础I/O算力,作为CPU的卸载引擎,接管网络虚拟化、硬件资源池化等基础设施层服务,释放CPU的算力。尤其是在大模型训练时,多机集群的并行计算需要实时、低时延的数据同步,DPU的作用不可或缺。
可以说承载网络、存储、安全和管理控制等功能的DPU,在如日中天的AI大模型时代已成为算力集群的新支点。
业内人士梁宇(化名)也表示,DPU的重要性在于一方面,随着AI大模型的普及,对于算力需求已经达到了2个月就翻一倍的速度,大模型训练参数在指数级增长,对于计算能力、内存带宽、网络带宽都带来极大压力,DPU可支持100G+高带宽和大规模组网,提供高效的存储处理能力,通过支持RDMA(远程直接内存访问)技术减少延时和抖动,显著提高GPU的有效计算,这对于AI大模型的高效训练至关重要。另一方面,DPU有望极大降低数据中心成本,单个高端DPU可提供相当于125个CPU内核所提供的数据中心服务,有望节约大量支出。
DPU的产业价值已成共识,尤其是最近加快建设算力基础设施的各种重磅政策和方案接连出台,全面利好DPU产业发展。2023年10月,工信部、中央网信办、国务院国资委等六部门2023年10月联合印发《算力基础设施高质量发展行动计划》,强调DPU在提升算力效率、优化算力质量、促进绿色低碳算力发展等方面的关键作用。这一政策的出台,标志着DPU在国家战略中的地位得到了正式确认。
国内GPU厂商在加速攻坚之际,国内DPU赛道也站满了各路玩家,如阿里云、腾讯、字节跳动等互联网巨头,以及一些DPU创业公司中科驭数、星云智联、云脉芯联、云豹、大禹智芯、益思芯、芯启源等均在各展神通。
持续应对多重挑战
DPU的重要性已不容忽视,但为满足AI大模型对高性能网络和数据处理能力的不断增长的需求,DPU还需要着力解决相应的挑战。
总体而言,DPU面临的挑战还集中于性能、生态以及应用等方面。
梁宇指出,DPU在性能层面需要持续优化。英伟达提出的网络计算概念非常领先,网络不仅仅在数据中心做数据的传输,还可作为数据中心的计算单元之一,涉及数据在进入计算节点时已经进行了预处理,从而显著提高计算效率。然而,要实现这一概念,DPU需要具备强大的算力以及分配能力,目前英伟达还在研究中,国内企业也在积极探索。
在技术层面,DPU正朝着SoC的方向发展,国内外厂商都在积极研发和部署DPU SoC。
“但SoC功能要求复杂,成本较高,需要包含了CPU等核心组件,对架构、工艺等均提出了更高要求。有的企业采取板卡形式,虽然性能上可能不如集成度更高的SoC,但这一设计可降低研发成本和难度。”梁宇分析说。
此外,DPU是软硬件结合的产物,竞争力不仅仅取决于硬件性能,还涉及到软件的适配和优化,需要DPU厂商研发软件栈与国产CPU、GPU厂商深度合作进行适配,以实现软硬件的协同优化。
面向应用,DPU不仅在AI大模型训练中发挥作用,还将在云计算、裸金属、容器云、低时延等多种场景中提供支持。但在各类应用中,还需因地制宜。梁宇举例说,尽管云厂商对搭配DPU的服务器有较高的需求,因为这一配置可提供更多的资源和更高的安全性,但云厂商在销售裸金属服务器时却很难盈利,这在某种程度上限制了需求的增长。
“DPU还尚未达到爆发点,需要提供更多价值和适用场景以证明其价值,在不同的应用中针对性的解决挑战将有助力促进DPU加速应用。”梁宇总结道。
理性应用稳健发展
尽管面临诸多挑战,但作为新型算力基础设施的一股新生力量,DPU在多元化场景的应用也在深入。可以说,国内DPU正处于行业应用深化和生态系统构建的关键时期。
特别是随着DPU在金融、电信、云计算等多个行业得到广泛应用,与上下游企业共同推动行业标准的制定和生态系统的完善也成为“连续剧”,持续推动DPU的进化和发展。
经过近些年的深耕,尽管国内DPU相比国外巨头在某些性能指标上还存在差距,但通过系统优化和软硬件协同,已经在一些领域实现了性能超越,并且在众多应用中得到了有效检验。
据悉,云脉芯联DPU除具备I/O虚拟化、网络、存储卸载等核心功能之外,还可支持RDMA满足高性能计算、人工智能、云存储等场景,支持RDMA功能的云脉芯联DPU/智能网卡产品已在客户和合作伙伴解决方案中落地实施。
而云豹自主研发的DPU采用创新的层级化可编程设计,融合国密加速引擎及自主研发的RISC-V指令集,确保核心应用的安全可靠、自主可控及灵活高效。目前公司已与头部云计算大厂、电信运营商和央企等开展深度合作,共同推进DPU产业落地。
中科驭数在最近也集中展现了其在低时延、云原生及智算中心三大关键场景下的技术成果与五大核心DPU解决方案。张宇介绍,DPU已在某头部云计算厂商的云数据中心中落地。基于DPU的方案可以大大缩短裸金属服务的交付时间,实现了虚拟网络功能的全面卸载,也为存算分离相关的多种存储技术提供了统一的接口。
针对云原生业务的复杂性和高时效性需求,中科驭数基于DPU的极速服务网格方案化繁为简,有效降低了系统时延。据介绍,基于DPU的服务网格方案已成功应用于国内某知名证券机构,在七层服务治理下,时延降至100-130微秒;在四层流量下,仅需40微秒。
通过“深挖洞、广积粮”策略,国内DPU企业不仅在软硬件协同、架构层面快速迭代,还带动算力基础设施计算体系结构的变化,加强推进在低时延、云原生等关键场景的落地,也将持续在算力时代谱写不凡的篇章。