英伟达“阉割版”芯片不受待见,中国企业将获绝佳翻盘机会?
集微网报道 (文/陈兴华)英伟达最新特供中国的“缩水版”AI芯片可能将在市场销售上面临重要挑战。
早在去年11月,由于美国更新出口管制,业界盛传英伟达将针对中国市场再次推出三款AI芯片HGX H20、L20 PCle、L2 PCle,分别应用于训练、推理和边缘场景。随后,由于所谓“服务器厂商集成芯片时遇到问题”等,英伟达H20等芯片的推出时间出现数次跳票。据最新报道,英伟达将于2024年第二季度开始量产H20和其它AI芯片。
然而,国内企业此前已经拿到H20芯片样品进行测试,并被曝已经大量缩减相关订单,以及将一些AI芯片订单转移给华为等本土公司,同时更多地依赖其内部开发的芯片。在行业人士看来,H20不受待见的原因包括减量不减价、封装技术挑战、散热能耗更高、供应链风险和行业需求转变等因素,而国内AI芯片企业实现追赶还需要时间和耐心。
根据不同维度,在美国出口管制背景下,英伟达届时推出H20等芯片将引发“双刃剑”效应,即在国际地缘博弈背景下,其在中国的业务或将一定程度成为牺牲品,而国内AI芯片企业将获得逆风翻盘的机会,其中华为昇腾(Ascend)910B正成为英伟达在中国市场的强力竞品。此外,由于美国方面未来将因出口管制在大模型竞争中占据有利地位,国内产业界还有待加强追赶。
阉割版芯片为何不受待见?
虽然英伟达为在中国市场的销售争取了回旋余地,但如今却面临着一个更大问题,即中国大型云厂商和互联网公司并不热衷于为其“阉割版”芯片H20买单,包括阿里巴巴、腾讯已表示,其今年订购的芯片数量将远少于对已被禁止出口产品——英伟达A800/H800的原计划购买数量。据悉,2023年中国互联网企业向英伟达下了50亿美元的AI芯片订单。
对于英伟达H20芯片为何不受待见,国内一位相关行业企业的创始人对集微网称,为了达到算力需求,相关客户需要通过购买多颗H20芯片达到之前的H800算力,但一方面由于H20价格并没有比H800优惠太多、减量却不减价,反而让客户增加了成本支出。另一方面,算力提升并非简单乘加关系,为实现等量算力需要更多H20互联,片间的数据通信将成为挑战。由于片间互联主要依靠各家独有的互联方案,比如英伟达使用的NVLink等技术,而目前国产GPU实现高速互联的技术依然存在挑战。
此前,半导体研究机构Semianalysis发布的调研报告介绍了英伟达H20、L20和L2的详细信息,涉及FLOPS数据、NVLink带宽、功耗、内存带宽、内存容量和芯片尺寸等。其中,用于AI模型训练的H20提供96GB内存、4Tb/s内存带宽和296 teraFLOPS FP8性能。理论上,其整体算力比英伟达H100 GPU芯片下降80%左右,但在AI推理方面的性能比H100快20%,同时配置的HBM3显存和NVLink互联模块增加了不小成本。
英伟达H20、L20、L2三款芯片与其他产品性能参数对比 图源:Semianalysis
显而易见,H20的算力大幅下降是被逼无奈,而推理性能提升则可谓“刀法精准”,这主要是因为国内在推理领域已有相关替代且兼容CUDA 的方案。另据目前透露的消息,华为昇腾910B与H20相比,除FP16算力略高于200T之外,在显存(64GB)、显存带宽(4T)和互联带宽均(392G)还有差距。在从价格方面,910B比H20的21.8万元贵10万元左右,可见H20不只要实现H800的“平替”,还想更进一步侵蚀国产GPU的领地。
然而,国内一家服务器厂商代表指出,“目前,服务器不止算力问题,还需要考虑与存储、网络接口、电源等进行匹配和解耦,解决复杂链路的高速互联以及功耗大幅攀升问题,并通过结合软件的虚拟化来实现算力的精准匹配和释放。”在大模型落地一段时间后,大量的推理业务需求将产生。而推理业务集中于几十亿或上百亿参数模型,必须放到一张大卡上推理,但国内众多AI算力芯片公司已构建了一套完整的系统,对英伟达H20需求并不大。
自去年11月以来,部分中国公司一直在测试英伟达H20芯片的样品。鉴于其提供了达4Tb/s的内存带宽,一些测试人员表示,H20能为数据在多个处理器之间提供高效传输,这使其成为比国产替代产品更好的选择,可以构建处理人工智能计算工作负载所需的芯片集群。但这需要更多H20芯片来模拟之前英伟达芯片的计算能力,从而增加了相关成本。
另一方面,长期专注于AI领域的中欧资本董事长、华为前副总裁张俊博士向集微网表示,对国内厂商而言,虽然某种程度上可以通过把H20组成“集群”实现更高端芯片的性能算力,但这也会导致效率、功耗和发热量更大。“众所周知,开发建设IDC数据中心、智算中心,最大的问题之一就是散热和耗电,这涉及长期的技术维护和运营成本。而如果规模使用H20不仅会增加采购、能耗等成本,也不符合国家重视的降低能耗指标政策方向。”
行业资深人士铁云进一步表示,对国内大型互联网等企业而言,考虑供应链风险问题、减少采购英伟达产品是必然之举。实际上,互联网大厂在2018年、2019年甚至更早就开始布局“Plan B”,即替代英伟达产品的计划,只不过当时暂没有可用产品。而现在华为、燧原等企业推出了相对较为成熟的产品,大厂推行部分国产化替代也是理所当然、大势所趋。
“另外,就算中美立刻和解,国产化替代的事项也会继续下去。只不过那时会变成纯粹的商业逻辑,而现在的政治逻辑只是加速了国产化替代的进程。”他说。
中国AI企业将获绝佳机会
虽然算力、性能密度等缩水,但英伟达H20在内存带宽等方面仍保持极高水准,因而在业内仍然是一个具备竞争力的选项。张俊博士指出,目前,英伟达的强项在于软硬件生态,同时其将推出的H20芯片几乎达到了美国出口管制要求以下的极限,因此在国内还会有一定的市场。不过,这对华为等中国GPU企业而言也是一个绝佳的翻盘机会,不仅可以加强打造产业链上下游和生态系统,还将加速算力芯片的国产替代和系统化应用。
行业分析认为,在当前国际地缘环境下,国内科技公司正在调整商业战略,为未来减少使用英伟达产品做准备,从而避免不断调整技术以适应新芯片的巨大代价。据了解,阿里巴巴和腾讯等大型云厂商正在将一些先进的半导体订单转移给华为等本土公司,并更多地依赖其内部开发的芯片,同时中国人工智能头部企业百度和字节跳动等公司也采取了类似措施。
日本人工智能学会(JJSAI)正会员、人工智能首席科学家顾泽苍博士对集微网表示,英伟达准备向中国销售的H20芯片面临着与以华为为代表的本土GPU厂商的产品性能差距越来越小的问题,这使中国制造的芯片对买家越来越有吸引力。虽然中国市场还存在一部分客户迷信进口芯片,但面对美国监管机构的定期审查芯片出口管制,英伟达的H20芯片不会再有昔日辉煌,而中国GPU芯片公司将在技术研发、市场拓展等方面取得更进一步的发展。
英伟达CEO黄仁勋曾表示华为是该公司在中国的“强大竞争对手”
另据Semianalysis在报告中称,华为昇腾910B是英伟达在中国市场的主要竞品之一,其性能介于A100和H100之间,正在被中国大型企业采购。据悉,2023年华为从国内互联网公司获得至少5000颗昇腾910B芯片订单。在这一趋势下,TrendForce分析师弗兰克·孔(Frank Kung)表示,中国云计算公司目前约80%的高端AI芯片来自英伟达,这一比例可能会在未来五年降至50%-60%。未来,美国收紧芯片管制将给英伟达在华销售带来额外的压力。
但也有分析指出,目前在大模型推理方面,经测试华为昇腾910B仅能达到英伟达A100的60%-70%左右,集群的模型训练难以为继;同时,910B在算力功耗、发热等方面远高于A100/H100系列产品,而且无法兼容CUDA,很难完全满足长期智算中心的模型训练需求。对此,华为已在加强软件生态系统建设,而且据传最快将在2024年下半年推出新的高端AI芯片。这将有助于其进一步缩短与H100等芯片的差距,并对H20构成有力竞争。
虽然国产GPU正取得重要进展,但也不宜盲目乐观,在当前产业发展局势下要进一步实现突破仍需克服重重挑战。上述企业创始人提到,华为昇腾910B不支持32位浮点计算是硬伤,这需要在架构和工艺层面实现突破。而要在显存和互联带宽实现提升,一方面显存需要业界最新HBM,但供货是重要问题;另一方面带宽需要类似NVLink的技术,国内公司目前暂时无法做到,这些都需要给予时间和耐心,也需要政策、资本助力和全产业链合力助攻。
2019年8月23日,华为在深圳发布商用AI芯片——Ascend 910(昇腾910)。
在铁云看来,“目前,国产芯片依然难以对英伟达实现全面替代。虽然H20的一些性能缩水,但是多数企业还会捏着鼻子买。“一方面,国内基本还没有企业能够在软件生态、工具和性能优化上达到英伟达的水平,这是一个工程问题,需要大量工程师的工程量积累和众多合作伙伴的反馈、磨合。另一方面,中小企业客户很难得到国内芯片公司的支撑,对于他们而言,选择公开资料更多、软件支持更加成熟的英伟达产品是唯一的选择。
他还称,在绝大多数商业竞争中,产品契合度、生态、服务和各项显形、隐形成本才是决定一家公司选择的主要因素,所谓的“技术”在用户端看来反而差距没有那么明显,例如当年华为通信业务就是靠服务逆袭思科和爱立信。张俊博士则补充道,在高端GPU行业,华为需要清晰认识到自己还属于“备胎”水平,但在国产替代和国家加强智算中心建设背景下,随着华为已经把算力提升到战略重点,未来中国AI芯片行业或将是英伟达H20、华为昇腾910B等公司主导,同时国内其他GPU中小公司会分享一些零碎的市场。
出口管制是一把“双刃剑”
多年来,中国大陆一直是英伟达最大的市场之一,历来占其收入的五分之一左右。但受国际地缘政治趋紧和中国AI芯片企业崛起影响,英伟达面临在华销售额损失的长期风险,而且在美国监管机构的要求和提供中国客户所需芯片之间取得平衡的难度正在增加,例如据传其上一代中国特供芯片未完成订单的金额达数十亿美元。
张俊博士表示,“全球人工智能产业主要是中美两大阵营,英伟达如果失去中国市场就等于失去一条胳膊。现在美国地缘政治高于一切,而高端AI芯片只是一个服务其国家战略的工具。对此,英伟达即便很着急也没有具体办法,不仅去抗议会无效,而且美国政府也基本不会补贴它的损失。”对冲基金Interconnected Capital 的创始人凯文·徐(Kevin Xu)进一步称,当前阶段的囤货完成后,英伟达的中国业务将成为牺牲品。
如今,随着英伟达在中国可出售的芯片从H100变成H800再降级至H20,以及大模型发展逐渐进化至“下半场”,中国企业客户的态度也由蜂拥而至转向差异分化。
一位中国科技公司的工程师表示,鉴于英伟达更广泛的生态系统以及本土替代品仍然供不应求,英伟达的芯片在未来一年内仍将是采购重点。然而,阿里云的一位高管称,“如果未来几年限制可能会变得更加严格,那么最好现在就开始考虑替代方案。”据悉,阿里平头哥半导体已在开发“含光”系列的新专用AI处理器。科大讯飞创始人刘庆峰也强调,“现在业内基本都按照国产芯片来规划算力,科大讯飞早已按照不购买美国芯片的方案布局未来。”
另一方面,2023年初,随着中国主要科技企业和初创公司都试图开发自有AI大模型,市场对生成式人工智能的狂热刺激了对英伟达高端芯片的大量需求。而如果大模型企业要进行大规模的参数训练,算力集群规模是建构核心,但部分中小企业也愈发不足以承受相关成本。
2023年3月16日,百度于北京总部发布新一代大语言模型、生成式AI产品文心一言。
业界评估显示,目前H100/H800是算力集群的主流实践方案。其中H100理论极限在5万张卡集群,最多达到10万P算力;H800最大实践集群在2万-3万张卡,共计4万P算力。而H20芯片理论极限在5万张卡集群,每张卡算力为0.148P,共计为近7400P算力,低于H100/H800。因此,对国内企业而言,H20更适用于垂类模型训练、推理,或者需要增加更多成本扩展算力才能完成千亿级参数模型训练,而更高参数模型则遥不可及。
进一步来看,鉴于大模型运营成本居高不下,国内产业界正在不断探索大模型的商用场景,而许多中小企业已经缩减在芯片层的布局,转而专注于人工智能应用层,通过租赁百度或华为人工智能处理能力开发相关应用程序。显然,规模较小的大模型企业寻求发展模式演进,也将为英伟达H20芯片未来在中国市场的销售带来挑战。
对此,铁云表示,“专注人工智能应用是对的,大模型不是大跃进、大炼钢铁,而是一个服务于实际应用的强大内核,并不一定是参数越多越好。定制化大模型和AIPC会成为未来的一个趋势,而这两个趋势均不是纯靠模型大小取胜。”根据美国禁令,后续更加先进的产品无法通过正规途径销售到中国,H20这一级别的产品基本上就是上限,而英伟达空出的部分市场会被国内厂商填补。但国内厂商设计出更先进的产品之后如何流片其实也是重要问题,半导体行业真正卡脖子的还是生产制造环节,而不是英伟达。
至于英伟达再次推出特供中国的“阉割版”H20等芯片对中美大模型竞赛的相关影响,张俊博士称,人工智能将是中美科技竞争的主战场,而美国正在利用出口管制阻碍中国的人工智能发展进程。目前,中美大模型的发展差距大概在两年左右,尽管中国AI大模型企业在奋力追赶,但美国最新的GPU出口管制可能导致这一差距拉大。
“总体上,美国的出口管制是一把‘双刃剑’。一方面,这会对英伟达在中国市场的营收等造成重要影响,同时促使中国AI芯片获得更好的发展空间;另一方面,这也对国内人工智能企业构成打击,无法与美国AIGC企业处于同一起跑线,因而需要国内软硬件工程师发挥智慧与ChatGPT等硬刚,以及国内大模型企业乃至整个产业界携手突破困局。”张俊博士说。
(校对/杜莎)
【注:记者李映对本文亦有重要贡献。】