AI浪潮席卷 存储再进化
全球产业数字化,数字资料规模攀升,加上AI技术兴起,全球对数据处理、大数据分析与AI应用的需求快速增长,间接提高对支持高性能计算(HPC)与AI计算的硬件设备及芯片要求。以云端数据中心服务器来说,HPC与AI计算需求下,需要搭配升级的晶片包含作为芯片核心的中央处理器(CPU)与图形处理器(GPU)、服务器基板管理芯片(BMC)、电源管理芯片(PMIC)、高速传输芯片,以及存储等。
其中,存储除用于长期储存数据、属于非挥发性存储的NAND Flash固态硬盘(SSD),也包含用于即时高性能计算暂存数据、属于挥发性存储的静态随机存取存储(SRAM)与动态随机存取存储(DRAM)。
存储在芯片计算过程中的主要作用,是暂存计算过程中的中间值或参数。传统的暂存用存储可区分为芯片内部的快闪(Cache)存储与外部连接的DRAM。随着计算性能持续提升,芯片对内部与外部存储的容量与数据存取速率要求提高,特别是内部Cache存储。在封装的空间尺寸有限下,将小芯片(Chiplet)通过先进封装在单一芯片内形成更高密度的堆叠整合,成为提高芯片内部存储容量的重要选项。
先进封装技术发展针对芯片计算性能与功能持续提升的需求,通过中介层、硅穿孔与微凸块等技术达成2.5D/3D的小芯片堆叠,使厂商能在更小空间内达成更多计算单元与芯片功能整合。AMD的Ryzen 7 5800X3D芯片就是存储小芯片与CPU堆叠整合的例子:通过在CPU上方堆叠64MB的SRAM存储小芯片,将CPU原本32MB的Cache存储扩充为96MB,使CPU计算性能提升15%。
不过,用于HPC或AI计算的高阶GPU芯片,如英伟达的H100与AMD的MI300,其主要计算架构是以GPU计算核心搭配可快速大量存取传输数据的高频宽存储( HBM),二者通过先进封装技术,也就是台积电的CoWoS 2.5D封装技术在中介层上整合连接。
HBM是AMD与韩国存储大厂SK海力士、中国台湾联电、日月光等伙伴合作开发,SK海力士在2015年量产第一代HBM(HBM1),导入AMDRadeon Rx300 GPU芯片。随后韩国与存储大厂三星电子与美光也投入HBM开发。其主要结构是由多层DRAM存储小芯片形成的高容量存储垂直堆叠,最下层是HBM的控制芯片。堆叠中上一层DRAM与下一层DRAM间的信号通过微凸块连接,而上一层DRAM的信号可穿过下一层DRAM的硅穿孔与更下层的DRAM甚至最下层的控制芯片连接,再向下传递至基板。垂直堆叠的短距离确保层与层间的信号传输快速且耗能低,间接提升计算性能。
在CoWoS架构下,GPU计算核心可搭配多个HBM堆叠。目前全球已发展到HBM3的最新规格,在HBM堆叠数、垂直堆叠层数及层间讯号连接通道数都有增加;如从HBM2到HBM3,堆叠数可从八个增至16个,有效提升存储的数据容量与存取传输速率。
HBM主要是搭配GPU这类高计算性能芯片,本身主要结构采用3D堆叠的先进封装制作,再以CoWoS先进封装与GPU运算核心整合,形成完整的GPU芯片。若非GPU采用7纳米以下先进制程制作,是属于高单价产品,要以先进封装整合HBM的芯片生产成本是难以承受。在AMD Ryzen 7 5800X3D芯片的例子中,CPU上方堆叠SRAM小芯片,为提高存储容量,也需以先进制程制作SRAM,成本高昂。
针对智能物联网(AIoT)应用所需中等算力需求,有半导体厂商提出非先进制程计算芯片搭配客制化DRAM存储的解决方案,将存储与计算芯片以3D封装垂直堆叠。所谓的定制化DRAM存储,是根据计算芯片的电路与内连线的接触电极分布,设计出DRAM芯片的电路与数据存取传输通道位置,使计算芯片与垂直堆叠的DRAM小芯片之间能有高效率的数据存取传输,以提升计算性能。计算芯片是以AIoT应用所需的单芯片(SoC)或特殊应用芯片(ASIC)为主,而DRAM高于SRAM的存储密度,让DRAM小芯片在不采用先进制程下可拥有相当于SRAM小芯片的容量,也是成本优势。
中国台湾有存储厂商与晶圆代工业者、封测厂商、IC设计厂商合作,构建解决方案平台,依照应用需求,完成ASIC、DRAM以及二者封装连接与散热等需求的完整设计。无论是ASIC与DRAM都采用成熟制程制作,相较HBM、SRAM与先进制程计算芯片的组合,成本降低,可应对应用开发厂商对成本结构的要求。
为了应对日渐增加的AI应用,存储以小芯片或HBM等不同的样态,可通过先进封装技术与计算芯片形成单一芯片封装,支持不同类型的计算需求,也促成中国台湾半导体产业链跨领域多元整合的生态体系发展。
(作者是资策会MIC资深产业分析师)