版主信息与通信 2024-10-17

万亿参数模型的数据迁移挑战巨大，PCIe7.0如何提升AI芯片带宽？

有关人工智能（AI）快速发展的新闻报道层出不穷，与此同时，对先进、高效的硬件基础结构的需求也变得愈加迫切。大语言模型（LLM）越来越复杂，所需参数量每四到六个月就会翻一番。事实上，GPT-4的参数量超过一万亿！这个数字看似很直白，但其所对应的数据量庞大到令人咋舌──2万亿字节就相当于200,000张高分辨率照片或500,000个文档。要想高效且稳定地迁移如此庞大的数据集，就必须依赖于高可靠性、高带宽的互连技术。

如果数据陷入传输瓶颈，复杂的LLM算法和强大的加速器/处理器也将失去意义。大规模处理和存储这些模型需要高速和低延迟，而当前超大规模数据中心的基础设施无法满足。为了推动技术变革，超大规模用户和整个配套生态系统需要考虑从芯片级别转变，以支持扩展可实时处理PB级数据的系统，同时降低功耗。

在这种背景下，PCI
Express标准再次更新，PCIe 7.0应运而生。PCIe 7.0可提供最高达512
GB/s的带宽和超低延迟，能够满足AI工作负载的海量并行计算需求，帮助缓解数据瓶颈。今天，新思科技推出了完整的PCIe 7.0
IP解决方案，助力实现安全的数据传输并为下一代AI和HPC芯片提升带宽。

图1：AI模型中的参数量每4到6个月就会翻一番，比摩尔定律快4倍，因此需要更大的容量、更多的资源和更快的互连

01.AI基础结构的演变

典型的云应用服务器机架单元中有清晰的结构：处理器和网络接口卡（NIC）或数据处理单元（DPU）通过PCIe链路进行连接。

图2：相干计算需求呈指数级增长，催生下一代CPU到加速器的连接技术

然而，AI模型日趋复杂，模型训练的基础结构要求也随之发生了巨大变化。当今的AI工作负载需要不同的架构，其中多个加速器需与中央处理器协同工作。事实上，一些先进架构需通过支持加载-存储架构的互连技术，在单个计算单元内连接多达1,024个加速器，确保处理器能够高效地管理和处理每个数据包。PCIe
7.0提供连接多个加速器所需的带宽和加载-存储功能，进而促使其高效处理大型、复杂的机器学习模型。此外，PCIe
7.0还满足了处理器的以太网带宽需求，以便与兼容1.6 Tbps以太网链路的网络接口卡进行连接。

更重要的是，PCIe 7.0还可以通过完整性和数据加密（IDE）协议支持强化数据安全防护，为事务层数据包（TLP）和流量控制单元（FLIT）提供数据机密性、完整性和重放保护。

02.新思科技PCIe 7.0 IP解决方案可支持扩展AI工作负载并降低集成风险

新思科技在PCIe IP领域深耕二十余年，与众多公司合作完成了3,000多项设计,致力于持续为整个PCIe生态系统提供接口IP支持，相关产品范围涵盖处理器、加速器、闪存控制器、固态驱动器、Retimer、智能NIC及交换机等。