运行端侧大模型，NPU 和异构计算带来「一步到位」新体验

自 2022 年底 ChatGPT 问世以来，对生成式 AI 的应用和想象席卷而来。

就拿旅行规划的场景来说，我们可以对着终端的 AI 旅行助手，直接提出规划旅游行程的需求。AI 助手能够立刻给到航班行程建议，并与用户进行语音对话调整行程，最后通过像 Skyscanner 一样的插件创建完整航班日程。

像这样的终端侧生成式 AI 技术，是如何带给用户一步到位的体验的呢？

近日，高通技术公司产品管理高级副总裁 Ziad Asghar 阐述了这一场景背后的技术实现过程。首先，用户的语音输入需要通过自动语音识别（ASR）模型 Whisper 转化为文本，Whisper 是 OpenAI 发布的一个约 2.4 亿参数的模型，它主要在高通传感器中枢上运行。接下来利用 Llama 2 或百川大语言模型基于文本内容生成文本回复，这一模型在 Hexagon NPU 上运行。之后需要通过在 CPU 上运行的开源 TTS（TexttoSpeech）模型将文本转化为语音。最后，通过我们的调制解调器技术进行网络连接，使用 Skyscanner 插件完成订票操作。

在这样完成流畅的体验背后，如何通过选择合适的处理器进行异构计算，来高效适配每个环节的不同任务，成为关键。

随着生成式 AI 用例需求在有着多样化要求和计算需求的垂直领域不断增加，一个专为 AI 定制设计的全新计算架构——神经网络处理器 (NPU) 成为新需求，同时我们还要利用异构处理器组合，比如中央处理器 (CPU) 和图形处理器 (GPU)。

在这一点上，高通率先展示了如何利用 NPU 和异构计算，开启终端侧的丰富生成式 AI 用例。

高通的异构计算引擎，即高通 AI 引擎包含不同的处理器组件，包括 CPU、GPU、NPU（神经网络处理器）以及高通传感器中枢等，它们共同协作以打造出色的体验。

其中，不同的处理器组件扮演着不同的角色。CPU 擅长顺序控制，非常适用于需要低时延的应用场景，因此我们会在对时延要求非常高的用例使用 CPU。CPU 也适用于相对较小的传统模型，如卷积神经网络模型（CNN），或一些特定的大语言模型（LLM）。此外 CPU 能力还需要取决于特定的产品类型。如果是传统的 PC 芯片，其 CPU 功能会十分强大；如果是车用芯片，则会更加注重 NPU 能力。而 GPU 主要擅长面向高精度格式的并行处理，比如对画质要求非常高的图像以及视频处理。

而 NPU 具备业界领先的每瓦特性能。特别是在持续型用例中，需要以低功耗实现持续稳定的高峰值性能，NPU 可以发挥其最大优势。在基于 LLM 和大视觉模型（LVM）的不同用例，例如 Stable Diffusion 或其他扩散模型中，NPU 的每瓦特性能表现十分出色。

通过结合 NPU 使用合适的处理器，异构计算能够实现最佳应用性能、能效和电池续航，赋能全新增强的生成式 AI 体验。

图 1：正如在工具箱中选择合适的工具一样，选择合适的处理器取决于诸多因素，将增强生成式 AI 体验。

异构计算的重要性

生成式 AI 的多样化要求和计算需求需要不同的处理器来满足。支持处理多样性的异构计算架构能够发挥每个处理器的优势，例如以 AI 为中心定制设计的 NPU，以及 CPU 和 GPU。每个处理器擅长不同的任务：CPU 擅长顺序控制和即时性，GPU 适合并行数据流处理，NPU 擅长标量、向量和张量数学运算，可用于核心 AI 工作负载。

异构计算能够实现最佳应用性能、能效和电池续航，以最大化发挥生成式 AI 终端用户体验。

图 2：NPU 随着不断变化的 AI 用例和模型持续演进，实现高性能低功耗。

什么是神经网络处理器 NPU（Neural Processing Unit）？

NPU 专为实现以低功耗加速 AI 推理而全新打造，其架构随着新 AI 算法、模型和用例的发展不断演进。Al 工作负载主要包括由标量、向量和张量数学组成的神经网络层计算以及非线性激活函数。优秀的 NPU 设计能够为处理这些 AI 工作负载做出正确的设计选择，与 AI 行业方向保持高度一致。

图 3：高通 AI 引擎包括高通 Hexagon NPU、高通 Adreno GPU、高通 Kryo 或高通 Oryon CPU、高通传感器中枢和内存子系统。

高通领先的NPU和异构计算解决方案

高通正在助力让智能计算无处不在。业界领先的高通 Hexagon NPU 面向以低功耗实现持续稳定的高性能 AI 推理而设计。高通 NPU 的差异化优势在于系统级解决方案、定制设计和快速创新。通过定制设计 NPU 并控制指令集架构 (ISA)，高通能够快速进行设计演进和扩展，以解决瓶颈问题并优化性能。

Hexagon NPU 是高通业界领先的异构计算架构——高通 AI 引擎中的关键处理器，高通 AI 引擎还包括高通 Adreno GPU、高通 Kryo 或高通 Oryon CPU、高通传感器中枢和内存子系统。这些处理器为实现协同工作而设计，能够在终端侧快速且高效地运行 AI 应用。

我们在 AI 基准测试和实际生成式 AI 应用方面的行业领先性能表现就是例证。请阅读白皮书，深入了解高通 NPU、我们的其他异构处理器，以及在第三代骁龙 8 和骁龙 X Elite 上业界领先的 Al 性能。

图 4：高通 AI 软件栈旨在帮助开发者一次编写，即可实现随时随地运行和规模化扩展。

赋能开发者加速生成式Al应用

我们专注于在全球搭载高通和骁龙平台的数十亿终端设备上实现便捷开发和部署，赋能开发者。利用高通 AI 软件栈（QualcommAIStack），开发者可在高通硬件上创建、优化和部署 AI 应用，一次编写即可实现在不同产品和细分领域采用高通芯片组解决方案进行部署。

通过将技术领导力、定制芯片设计、全栈 AI 优化和生态系统赋能充分结合，高通技术公司在推动终端侧生成式 AI 开发和应用方面独树一帜。高通技术公司正在赋能终端侧生成式 AI 的规模化扩展。

异构计算的重要性

什么是神经网络处理器 NPU（Neural Processing Unit）？

高通领先的NPU和异构计算解决方案

赋能开发者加速生成式Al应用

最新文章