AI时代为何硅光集成不容错过?
大语言模型和生成性AI领域的进步,正在推动AI成为推动全球经济发展和社会变革的关键力量。为满足日益增长的AI大模型训练和推理需求,可扩展计算架构愈发需要更大的数据I/O带宽和更长的连接距离,以支持大型xPU集群和更高效的资源利用架构,如GPU解耦和内存池化。
在这一情形下,英特尔研究院副总裁、英特尔中国研究院院长宋继强认为,I/O通信需要根据传输距离采用不同的技术:传统基于铜线连接的电学I/O的性能局限逐渐显现,为实现高带宽密度和低功耗,仅适用于很短的传输距离(小于1米)。超过100米的通信,可采用可插拔的收发器,这需要高速串行器与解串器或DSP。而在100米以内的通信,光学I/O技术提供了远超电学I/O的带宽、传输距离、高抗干扰能力和低能耗的优势,而且业界共识是通过硅光集成技术,将光学I/O与CPU、GPU或SoC共封,全面优化和改善I/O带宽密度、总能效比、延迟和成本。
着眼于AI引发第四次工业革命、硅光集成重要性凸显的这一历史节点,英特尔、台积电、三星等均在发力硅光集成。
台积电宣称其正开发的三维立体光子堆叠技术COUPE,计划在2025 年完成将COUPE技术用于小尺寸可插拔设备的技术验证,并于2026年推出基于CoWoS 封装技术整合的共封装光学模块。三星也计划在2027年推出一体化、CPO集成的AI解决方案,旨在为客户提供一站式AI解决方案。三星还投资了硅光子学公司Celestial AI,目前完成了1.75亿美元C轮融资。而英特尔先声夺人,在前不久展示了一款与CPU共同封装的硅光集成(OCI)芯粒,这一技术不仅标志着数据中心和高性能计算(HPC)应用中的AI基础设施向前迈出了重要一步,也预示着高带宽互连技术的新纪元。
解决重重挑战
随着AI大模型走向规模定律(Scaling Law),不仅在训练和推理时需要部署多个服务器机架,甚至还要跨机架连接组成服务器集群。宋继强分析,无论是将模型的规模做得越大,在已有的数据集上训练以获得更好的效能,还是模型保持尺寸不变,将用来做训练的数据规模做大提升性能,对整个计算、存储以及I/O通信的要求不断走高,需大幅提高I/O带宽密度和互连距离,OCI成为100米以内通信的最佳选择。
作为开山之作,英特尔OCI芯片的核心是将硅光子集成电路(PIC)和电子集成电路(EIC)封装于一体,作为一个完整的物理层光I/O器件,PIC包括片上密集波分复用(DWDM)激光器、光放大器(SOA)、调制器、光波分复用器和解复用器,EIC则包含xPU等。
但将光电共封绝非易事。宋继强提及,将PIC的光学功能(例如光的产生、调制和检测)整合到硅基板上,要解决诸多挑战。
“如何将激光器集成是一大挑战,必须产生激光和进行光学校准,这对于制造来说是一大难题。还需要调制器等器件,通过改变穿过它们的光的强度或相位将电子信号转换为光信号。在接收端光电探测器将光信号转换回电子信号,从而完成通信回路。此外,封装必须支持光子结构的稳定性,最大限度地减少可能破坏光信号完整性的任何位移或振动,同时还要使其能够与电子元件无缝交互。”宋继强强调。
在解决PIC挑战之外,将光学I/O芯粒集成到 CPU 或 GPU 封装中在技术层面也要解决增加热量管理、封装设计和供电方面的挑战。同时,在两个独立的芯片(硅光子集成电路和电子集成电路)上构建光子和CMOS电路,要确保可扩展性和性能优化,而无需在单个芯片上结合两种截然不同的技术所必需的折衷。
据悉,与电子电路相比,封装和组装通常只是成本的一小部分,但集成PIC的复杂性颠覆了这一比例。据研究估计,光子器件的封装、组装和测试成本高达模块总成本的80%。
更棘手的是,如何保障硅光子学的大规模量产亦是一项艰巨的任务。
差异化优势显著
所幸的是,在OCI领域英特尔攻坚克难,推出的OCI也实现了新的进阶和突破。
宋继强介绍,英特尔OCI支持64个通道的32G数据传输,可支持高达每秒4Tbps的双向数据传输,延迟小于10ns(纳秒级),传输距离可达100米。更重要的是,该技术与PCIe5.0兼容。每对光纤携带8个DWDM波长,功耗仅为每比特5皮焦耳(pJ),即10的负12次方焦耳,这个数据比可插拔光收发器模块的功耗降低了3倍。
可以说,OCI不仅满足了AI基础设施对更高带宽、更低功耗和更长传输距离的需求,同时支持未来CPU/GPU集群连接和新型计算架构的可扩展性,包括一致的内存扩展和资源分解。
这一卓越性能也全面体出了英特尔的差异化优势。
“高频率的激光器和硅光放大器实现了真正的晶圆级制造,而不需要将单个芯片从晶圆上切割下来单独处理,采用普通的光纤即可传输。这种方法不仅简化了生产流程,还提高了可靠性。通过与EIC的封装集成,未来会进一步提升良率降低成本,走向规模化。”宋继强分享道,“业界有些在采用外部激光器的方案,还需要专门的保证偏振光特性不变的光纤,带来高成本以及没有规模化部署案例的挑战。”
面向量产挑战,值得一提的是英特尔的OCI芯粒是基于内部经过量产验证的硅光子集成平台打造而成,该平台自2015年以来为超大规模数据中心内的连接应用交付了超过800万个光收发器模块,在性能、成本、可靠性和制造能力方面具有明显的差异化优势。
英特尔已成功证明其拥有一个成熟的、经过量产验证的硅光子平台,其可靠性已在数百万个器件上得到验证,数据显示时基故障率小于0.1。
对于制程走向,宋继强分析,PIC通常追求小型化,但首要是保证达到足够的效率,采用的制程会比EIC要更成熟一些,EIC则相对要求先进的节点,同时要充分考虑到未来可扩展性的需求。因而,英特尔采用在主机xPU与I/O之间使用电气接口,这些接口已通过健全的IP生态系统实现标准化,例如 UCIe、PCIe、以太网等。
新兴技术助推
在成功完成了OCI首秀之后,英特尔也在优化的路上持续精进。
对此宋继强总结道,英特尔正在投入研发新的硅光子制造工艺节点,该节点将实现领先的器件性能提升、更高的密度和更好的耦合性,预计能将芯片面积减少40%以上,并大幅提高经济效益。英特尔还将继续改善片上激光器和光收发器的性能、成本和可靠性。英特尔制定了积极的路线图,通过提高线速率、每条光纤的波长数、光纤数量和偏振模式,扩展未来OCI芯粒的性能,后续产品预计将支持高达32 Tbps的数据传输速率的同时,还致力于将能效降低到每比特3.5皮焦耳以下。
还要看到的是,围绕OCI代工三大巨头的火力比拼正在全面展开,而先进封装和先进材料的采用和进阶也成为决定胜负的新筹码。
对于PIC和EIC的集成技术,宋继强指出,目前 PIC和EIC 集成如同一个Die,在晶圆级就完成了集成,不涉及2.5D的关系。未来为实现新的扩展,可采用EMIB、Foveros Direct等先进封装,也可采用RDL,重要是满足所需的带宽和密度。
随着玻璃基板成为替代有机基板的新一代技术,业界共识是基于玻璃基板的光子集成系统是解决带宽增大、通道数变多的核心技术。Yole分析认为,随着玻璃基板技术的成熟和供应链的发展,玻璃基板有望重新定义先进封装的格局。
目前,台积电已成立玻璃基板技术团队,在积极布局硅光子领域,或将实现硅与光电的跨界整合。三星也亲自下场开发玻璃基板,在OCI方案中或将进行TGV作为中介层的战术部署。
对于玻璃基板在英特尔OCI中的应用,宋继强也提及,因为玻璃基板导光度强,硅光与玻璃基板集成可助力实现更好的光波导,英特尔在这一领域也在深入布局。
全面而言,硅光集成不仅是AI时代高带宽传输领域的一大重要进展,亦有望彻底改变AI基础设施和连接方式。伴随着OCI技术的不断发展,也将持续在高性能计算、云计算和边缘计算领域书写计算行业的新篇章。