版主信息与通信 2024-09-09

异构计算+高性能低功耗NPU，高通正在推动终端侧生成式AI发展

9月6日，2024全球AI芯片峰会在北京召开。全球AI芯片峰会至今已成功举办六届，现已成为国内规模最大、规格最高、影响力最强的产业峰会之一。本届峰会以“智算纪元共筑芯路”为主题，共50多位来自AI芯片、Chiplet、RISC-V、智算集群与AI Infra系统软件等领域的嘉宾参与进行了报告、演讲、高端对话和圆桌Panel，对AI芯片筑基智算新纪元进行了全方位解构。

高通AI产品技术中国区负责人万卫星受邀参加大会开幕式，并发表了以“终端侧AI创新开启智能计算全新体验”为主题的演讲。他在演讲中提出，高通公司持续深耕AI领域，面对当前生成式AI的飞速发展，高通的领先SoC解决方案提供了异构计算系统和具备高性能低功耗的强大NPU，能够满足当前丰富生成式AI用例的不同需求和算力要求，并对实现最佳性能和能效至关重要。利用高通公司推出的领先第三代骁龙8移动平台和骁龙X Elite计算平台，终端侧生成式AI现已应用于旗舰终端和用例，终端侧生成式AI的时代已经到来。

演讲全文如下：

大家上午好！非常感谢主办方的邀请，让我能够代表高通公司再次参加本次活动，跟大家分享AI芯片在生成式AI这个当前最火热的赛道上，高通公司做的一些工作。今天我给大家带来的演讲主题是“终端侧AI创新开启智能计算全新体验”。

作为一家芯片公司，高通为AI应用的加速专门打造了高算力、低功耗的NPU。首先，我会给大家简单介绍一下这款高算力、低功耗NPU的演进路径。可以说，这是一个非常典型的由上层AI用例驱动底层硬件设计的演进过程。可以回想一下，在2015年左右，大家所了解的AI用例主要是比较简单的语音识别、语音唤醒、图片分类、图片识别等。这些用例背后的底层模型，都是一些比较浅层的、规模比较小的CNN网络。那个时候，我们就给这颗NPU搭配了标量和矢量的硬件加速单元，满足对于性能的需求。

在2016年之后，计算摄影的概念在市场上得到普及，我们也将研究方向从传统的语音识别、图像分类扩展到了对图片和视频的处理。随着基于像素级别的处理对算力的要求越来越高，支撑这些应用的模型除了更大规模、更多层数的CNN网络之外，还有其他新型的网络，比如LSTM、RNN，甚至大家现在非常熟悉的Transformer。这些网络对算力和功耗的要求非常敏感，所以我们在标量和矢量加速单元的基础之上，进一步配备了一颗张量加速器，以提供更加充沛的算力，满足应用对像素级、对Transformer时序网络、对算力的要求。

2023年开始，大模型，尤其是大语言模型开始真正火爆起来。其实70%以上的大语音模型都是基于Transformer。因此，我们给这颗NPU专门配备了Transformer支持。同时，我们在保持标量、矢量、张量等硬件加速的基础之上，增加更多的硬件加速单元，包括集成独特的微切片推理技术，进一步针对对算力要求和Transformer并行化要求较高的模型推理进行加速。

未来我们会持续地加大对NPU的投入。生成式AI的未来一定是多模态的趋势，所以今年我们也在致力于实现将一些真正的多模态大模型完整地运行在端侧。在今年2月份的MWC巴塞罗那2024上，高通公司基于第三代骁龙8移动平台展示了一个demo，就是让超过70亿参数的多模态语言模型（LMM）完整地跑在端侧。

从模型规模来讲，高通未来会支持更大规模的大语言模型，今年我们将有希望看到超过100亿参数以上的大语言模型完整运行在端侧。当然，终端侧需要跑多大的模型，取决于实际的用例和这些用例对KPI的要求。

我们为什么致力于在终端侧去推理这些生成式AI模型呢？在终端侧进行AI处理不仅具有成本、个性化、时延等优势，我们认为还有最重要的一点，就是隐私性。包括手机、PC等个人设备上的个人信息、聊天记录、相册信息、甚至包括用户的生物特征信息等等，从用户角度来讲，不希望这些数据上传到云端做处理。通过运行大语言模型、大视觉模型等，在终端侧完成这些数据的处理，我们认为这可以很好地保护普通用户的隐私。从另外一个角度来讲，终端侧是离数据产生最近的地方。因为产生这些数据的设备，包括麦克风、摄像头，各种各样的传感器数据。在离数据产生最近的地方去完成数据的处理，这也是非常自然而然保护用户隐私的处理方法。

大家对高通Hexagon NPU的了解，我相信大部分是从搭载骁龙平台的手机开始的，但是高通除了有骁龙移动平台之外，还有非常丰富的产品线，覆盖汽车、物联网、PC、可穿戴设备等。高通Hexagon NPU已经赋能了我们的绝大多数产品，也就意味着我们的合作伙伴、开发者朋友们可以在这些不同的产品形态上，用NPU来做算法的加速、享受充沛的算力。除了硬件之外，我们还有统一的高通AI软件栈（Qualcomm AI Stack），可以让OEM、开发者在高通所支持的不同产品形态上去完成模型的部署和优化。

接下来更深入地介绍一下高通Hexagon NPU的硬件架构。以第三代骁龙8为例，高通Hexagon NPU中最重要的是张量、矢量和标量三大加速单元，它们能够对不同的数据类型做处理，例如张量加速器可以用来处理卷积运算、张量数据。此外还包括片上内存，让这三个加速器能够协作更高效。神经网络推理是有很多层的，每层之间都会有一些中间数据。而这些中间数据如果没有片上内存做缓存的话，可能都要跑在DDR上，这样对性能、功耗都会有非常大的影响。所以我们通过在NPU上配备比较大的片上内存，能够更好地释放AI算力。

此外，高通NPU的整个硬件设计会随着业界先进工艺的发展不断迭代。这颗处理器的微架构，包括前端设计和后端设计也会每年进行迭代，实现最佳性能和能效。不管是AI手机还是AI PC，对功耗都有很高的要求，我们要保证设备在日常使用中不会发烫、有更长续航。因此我们给NPU专门打造了加速器专用电源，以实现最佳能效比。我们还会通过升级微切片技术，支持网络深度融合，获取最佳性能。除了前面这些技术升级之外，我们还会提供更高主频，支持更大的DDR带宽。对于生成式AI模型，尤其是在解码阶段，需要DDR的支持，所以更大的DDR带宽就意味着大模型的解码速度更快，能给消费者带来更好的用户体验。

除了专门的高算力、低功耗NPU之外，我们还有一个单独的模块叫高通传感器中枢，它也可以用来做AI推理加速。它是DSP加多核Micro NPU的设计，最大的特点是功耗特别低，适用于一些需要始终在线的任务，包括始终开启的摄像头、手势识别、人脸检测、始终开启的语音唤醒等等。因为这些用例需要始终在线，所以对功耗尤其敏感。我们在硬件设计上，也会通过专门的传感器中枢加速模块来适配，对功耗极其敏感的用例进行加速。

前面介绍了非常多的硬件内容，下面会从用例方面来介绍一下我们是如何完成这些工作的。目前有非常多的AI用例，包括自然语言理解、自然语言处理相关的用例，还有计算摄影中降噪、超分、HDR、背景模糊等图像处理相关的用例，现在还有视频生成、视频处理等。此外，现在AI在游戏里也有很多应用，像AI NPC、自动剧情、地图绘制、二创等等。这些用例对各种KPI的要求和算力要求也不一样，有按需型用例、持续型用例和泛在型用例，很难有单一的处理器可以满足所有KPI的要求。

举个简单例子，有些任务是在CPU运行中突发的任务，这时理论上不应该唤醒全新的IP，否则时延会非常大，这个时候可以考虑用CPU架构去做加速。还有一些用例对算力要求比较高，可能需要长时间的处理，包括游戏领域、视频/图片处理领域以及大模型等用例。还有一种用例可能需要始终在线，这种时候用CPU、GPU或者NPU去加速都不合适，因为它对功耗极其敏感。

高通通过推出异构计算系统，来满足这些广泛AI用例对不同算力和KPI的要求。我们提供的异构计算系统，包括通用的硬件加速单元——CPU和GPU，用来处理实时的、突发的、对时延非常敏感的任务；我们还有NPU，它特别适用于需要持续性处理、对算力要求比较高、对功耗要求也比较高的一些任务，包括大模型、视频/图片处理以及游戏中持续运行的用例等；此外，还有传感器中枢用来处理始终开启的手势识别、语音唤醒等用例。

设计这样的异构计算系统，我们考虑了哪些因素，是怎么完成这个目标的呢？第一，我们希望提供极致的性能；第二，我们也希望实现比较好的持续性能表现，包括能效比；第三，我们也会从整体成本上考虑，以及考虑芯片尺寸的大小。最后我们也会考虑单位面积能够提供的算力。我们充分考虑这些因素，打造出这样一颗NPU和具有异构计算系统的SoC，为消费者带来了极致的AI，尤其是生成式AI的用户体验。

前面介绍了我们的AI硬件技术，包括各种各样的IP处理器、异构计算系统。接下来，我会跟大家介绍高通所赋能的AI体验。

自去年年底第三代骁龙8和骁龙X Elite平台发布后，大家能够看到市面上已经推出了非常多搭载这两款平台的产品。很多产品其实已经具有了端侧大模型的能力，我在这里举几个例子：第一个是今年年初发布的三星Galaxy S24 Ultra，它能够支持实时翻译的功能；第二个是OPPO Find X7 Ultra推出了AI消除功能，如果想要将图片里面的背景或路人移除的话，可以非常方便地用这个功能得到你想要的照片；第三是荣耀Magic6系列的智慧成片功能，可以非常方便地在图库里面找到与Prompt相关的图片或视频，生成一段vlog分享给你的家人跟朋友。

今年在MWC巴塞罗那2024期间，高通展示了在Android智能手机上运行的大语言和视觉助理大模型（LLaVA），这是一个超过70亿参数的大型多模态语言模型（LMM）。我们正在携手合作伙伴，将多模态大模型完整地带到端侧，带到消费者面前。

第三代骁龙8和骁龙X Elite平台已经赋能推出了丰富的具备终端侧AI或生成式AI能力的旗舰终端和用例。这些用例既有娱乐类的，包括图片生成、图片编辑等，也有生产工具类的，包括写作助手、文本总结、实时翻译等，能够给日常生活或工作带来更高的效率。

总结一下今天的分享内容，第一高通的SoC解决方案提供了异构计算系统，包括多个IP处理器组件，其中有通用的CPU、GPU、专用的NPU、超低功耗的传感器中枢，这些IP处理器组件各自会承担不同的任务，包括对时延敏感的、对算力敏感的、或对功耗敏感的任务。同时，它们也可以互相组合、共同完成一些更复杂的处理任务，提供端到端的服务。在2023年骁龙峰会期间，我们展示了怎么利用高通的异构计算系统去完成端到端的虚拟化身AI助手，当时我们把整个处理管线拆解成三部分：前处理、中间的文本生成、虚拟化身渲染的后处理。其中前处理是跑在CPU上，中间的大语言模型跑在NPU上，后处理跑在GPU以及传感器中枢上面。第二，我们提供强大、算力充沛、超低功耗的专用NPU，方便大家在NPU上部署更大、更先进、更丰富的模型。第三，我们认为，终端侧生成式AI时代已经到来，骁龙计算平台和骁龙移动平台已经赋能了非常多具备终端侧生成式AI功能的终端产品。

最后，我也想在这里做一个小小的预告，搭载最新高通Oryon CPU的下一代骁龙移动平台，即将在今年10月21-23日举行的骁龙峰会上发布，大家敬请期待，谢谢！