存内计算助力多模态大模型端侧部署

集微网报道(文/陈炳欣)在智能手机中集成AI功能已经不是什么新鲜事。从2017年起,AI便开始用于图像降噪、帧率优化、画质增强等场景当中。然而,这些早期应用所涉及的模型参数量通常不超过1000万,与当前讨论的端侧大模型相比,规模相差悬殊。如今,用于端侧的大模型参数量通常达到70亿。考虑到未来手机用户对多模态(文本、图像、视频等)处理的需求,动辄数百亿参数以上的模型恐怕才能提供相对满意的用户体验。而端侧设备要想运行如此大规模的模型,对于AI芯片的算力、带宽、成本、功耗等诸多方面都将提出更加严苛的需求。

大模型强化端侧部署,存内计算发挥关键作用

存内计算是一种将计算单元嵌入到内存中的计算范式,旨在解决传统冯·诺依曼架构中的“内存墙”和“功耗墙”问题。北京大学集成电路学院院长蔡一茂在接受记者采访时就表示,在越来越接近物理极限的情况下,单纯依靠传统工艺集成的方式推进摩尔定律,难度和成本都在急剧上升。另一方面,随着AI时代的到来,对传统芯片架构也将带来新的挑战,用户更加看重AI芯片在算力、存储、缓存带宽等方面的整体表现,因此寻求芯片架构上的创新对延续摩尔定律非常重要。这个架构创新就包括存内计算技术。

在过去的几年中,各界对存内计算进行了多方面的探索,开发出多种基于不同存储器介质的产品方案。知存科技基于Flash闪存开发存内计算,其他一些公司与研究机构也在基于SRAM、ReRAM、DRAM等介质开发。大模型时代的来临给存内计算带来更大的发展空间。

知存科技创始人兼CEO王绍迪告诉记者,对于AI大模型来说,存内计算可以在两个方面发挥关键作用:一个是解决内存带宽限制问题。大模型运算的首要瓶颈就表现为内存带宽的不足。英伟达最新发布AI芯片B200中集成了8块高带宽内存(HBM),合计通过数千根数据线提供约8TB/s的内存带宽,可见其为缓解内存带宽压力所做出的努力。而内存带宽问题正是适合存内计算的“好球区”。存内计算的运算部分在存储介质当中完成,架构上的创新性决定了其在带宽上具有先天优势,同时在算力和计算能效上也有明显的提升。根据蔡一茂的介绍,基于DRAM的存内计算评估下来有2~8倍左右的带宽提升。基于SRAM的存内计算针对大模型约有2~3倍以上的算力密度提升,和接近一个数量级的能效提升。

另一方面是降低部署成本。目前市面上主流AI计算卡的平均售价达到3万美元,仅计算HBM部分的成本也非常高,可这依然不足以支撑万亿参数的大模型运算。如果想将大模型朝端侧转移,势必需要更大幅度地降低芯片成本。存内计算的优势之一就是可以轻松扩大存储容量。王绍迪介绍,以Flash为介质的存内计算,单位面积下成本可以比DRAM下降60倍以上。这些性能和成本上的优势都为大模型向端侧转移提供了基础。

不过,王绍迪也强调,基于当前存储介质开发的存内计算,在解决大模型中Attention机制时运算问题仍然存在缺陷。Attention是大模型中的重要部分,基于Attention机制形成的短期记忆,使大模型把上下文联系起来,才能更好地完成推理过程。但是,以Flash等非易失性存储为介质开发的存内计算,却不适用于Attention类型的模型计算。因为Attention运算需要不停写入数据,然后再擦除。Flash存储介质的寿命有限,并不适合这类高频次的“写入-读取-擦除-再写入”过程。

针对这一问题,王绍迪透露,知存科技正在研发一种新方案,可支持无限次的擦写,同时拥有比Flash存内计算更高的算力表现。这使其具有了完成Attention类模型计算的发展潜力。一旦开发完成并投产,其市场应用前景将极为广阔。未来无论是在云端还是终端,大模型都需要不断升级,这就需要端侧设备可以支持模型的自适应训练,将支持无限次的擦写的存内计算材料用于端侧设备之中是十分必要的。

多模态大模型开启,存内计算关注度再升温

语言生成类模型固然是目前市场的主流,但是人们对图像、视频等多模态大模型应用的需求也在不断增加。年初,Sora的横空出世并引起广泛关注就是一个明显信号。多模态模型的运行可以大致分成两个过程:一是对多模态模型世界的理解,第二就是生成。以Sora视频生成类模型为例,它的运行不仅需要更大的内存带宽,对算力的需求也非常大。运行时,模型首先需要专门的图像处理引擎对视频或图片进行理解。这个过程中几乎每秒都要处理上千个Token才能实现实时理解。对于视频来说,一秒钟至少要生成30帧,同时还要考虑上下文的联系,连续30秒需要的算力非常之高。在理解的基础上,模型还要做生成。这对处理器的带宽又会提出新的要求。

也就是说,多模态模型的运行对芯片的算力和带宽以及成本、功耗都将有着更高的要求。Sora推出以来,其推广速度并不如人们想象得那么快,这与它对AI芯片的高需求有着莫大关系。当前的AI芯片很难支撑如此庞大的算力、带宽需求,而对算力带宽提出高需求的同时又会急剧推高成本。据测算,多模态模型的芯片成本将远高于目前的大语言模型。

蔡一茂指出,相对传统架构而言,存内计算或是突破多模态大模型发展中算力瓶颈的一个重要方向。如前所述,存内计算相对传统计算架构无论在算力还是带宽方面都有明显提升。存内计算相对传统计算另外一个重要优势是可以大幅降低成本。随着Flash、DRAM等存储容量的大幅度提高,芯片的单位成本也将不断降低。同时存内计算可以大幅减少数据搬运,这对降低芯片的运行功耗非常有利。

王绍迪也指出,存内计算的一个特点就是运算规模越大,优势也越大,这一点在降低成本与功耗控制方面表现得特别明显。当然,无论是材料创新还是架构创新,存内计算仍然还有很多难点,需要再花费数年时间去解决。但随着市场需求的广泛出现,再多难点最终也会被攻克。

市场蓝海,吹响人才“集结令”

展望未来,随着人们围绕大语言模型及多模态模型展开工作,AI芯片也将在模型理解与生成两个方向同时发力。蔡一茂表示,从本届ISSCC大会可以看出存内计算领域呈现几个新的发展趋势:一是业界开始尝试使用先进工艺如3纳米,寻求存算芯片在性能上的进一步突破。二是大模型的应用正在成为牵引存内计算芯片设计发展的重要因素,比如现在的存算芯片已经开始引入浮点运算,正朝着支持完整浮点的设计发展。三是相比之前的模拟类存内计算研究占多数,今年开始数字类存内计算的占比正在上升。据不完全统计,大会9篇关于存内计算的论文中,有4篇是全数字类的存内计算,另有2篇为模拟和数字混合类的存内计算。从全系统角度来看,某些领域数字类存算的优势更容易体现出来,因此引起大家的关注。四是大家在积极探索混合异构的创新以提升存内计算的性能,其中包括不同运算机制的融合,比如前面提到的通过模拟运算和数字运算的混合异构来提升存内计算的能效和精度;另外是不同存储介质的融合,包括基于DRAM与SRAM或者Flash与SRAM的存算融合来实现面向数据流的存储优化架构或者更高的性能。

基于这些认识,蔡一茂指出,大模型的本地化部署和推理,可能会给低成本的存内计算会带来新的发展机遇。随着手机大模型的本地化部署,以及具身智能领域的快速发展,本地化部署的大模型参数将发展到千亿规模,然而目前基于SRAM/DRAM缓存的GPU或者NPU方案,都面临存储容量受限或者成本过高的巨大挑战。而存内计算不但可以有效减小计算过程中的缓存需求,还可以探索基于低成本大容量的Flash介质比如VNAND研制更加低成本的存内计算芯片,这将是一个重要的市场发展机遇。

王绍迪也表示,越来越多存内计算公司已经开始面向大模型发展的下一阶段着手进行准备工作。知存科技基于Flash介质进行存内计算的开发,并在小存储器容量的Flash介质存内计算芯片上形成多条产品系列,产品可以做到数百MB级。但随着大模型技术的发展变化,知存科技也在进行调整,开拓新的方向。一方面公司将在原有的存内计算技术基础上对大模型进行适配,同时也在积极开发新技术,以解决端侧大模型推理的问题。现在端测的大模型市场仍然是一个巨大蓝海市场,市场上现有架构和存储技术都无法满足要求。知存科技希望在现有摩尔定律演进的基础上把支持端侧大模型的运算能力构建出来,同时关注大模型的发展趋势,为未来端侧大模型提供低成本、高性能的计算平台。

而要想完成这个发展规划,王绍迪认为,最大的挑战在于人才的不足。“当今正处于一个技术快速变革的时代,新老知识断层将是企业发展中面临的最大挑战。对于一个研发人员,可能目前已取得的一些创新成果和成功经验,过不了几年又会成为下一步创新的阻碍。因此,这个时代对人们的学习能力、理解能力,以及好奇心都有着更加强烈的要求。只有那些对新事物、新场景快速理解,并把两者结合到一起的人才,才能适应这个时代的发展。”

也因此,王绍迪强调,知存科技将出台一系列的激励政策,甚至将提供不输于华为等行业龙头公司的优厚待遇,吸引优秀人才的加盟。知存科技尤其青睐半导体底层器件材料方面的专业人才。未来的知存科技将会从材料层面推进底层创新。因为只有这样才能更好地为端侧设备提供更低成本、更高效率的计算方案。


夕夕海 » 存内计算助力多模态大模型端侧部署

发表回复