能效比较 GPGPU 高一个数量级, 爱芯元智 AI 芯片让端侧 AI 大模型高质量落地

摘要

2024 年世界人工智能大会 (以下简称:WAIC 2024) 依然是一场「百模大战」, 不过有一些很明显的变化是:新推出的 AI 大模型更加注重用户体验;边侧和端侧承载 AI 大模型的方案越来越多。也就是说,AI 大模型不仅完成了从「能用」到「好用」的蜕变, 也从高高在上的云端, 走到更靠近应用场景的边侧和端侧, 这给作为方案核心的推理芯片提出了非常高的要求。

2024 年世界人工智能大会 (以下简称:WAIC 2024) 依然是一场「百模大战」, 不过有一些很明显的变化是:新推出的 AI 大模型更加注重用户体验;边侧和端侧承载 AI 大模型的方案越来越多。也就是说,AI 大模型不仅完成了从「能用」到「好用」的蜕变, 也从高高在上的云端, 走到更靠近应用场景的边侧和端侧, 这给作为方案核心的推理芯片提出了非常高的要求。

在爱芯元智于 WAIC 2024 举办的「芯领未来丨智能芯片及多模态大模型论坛」上, 爱芯元智创始人、董事长仇肖莘在主旨演讲中表示, 大模型真正大规模落地需要云边端三级紧密结合, 而边侧和端侧结合的关键在于高能效的边端 AI 芯片。

爱芯元智创始人、董事长仇肖莘仇肖莘指出, 目前基于爱芯元智 AI 芯片已经完成非常多款 AI 大模型的适配, 能够支持的参数规模覆盖 0.3B-7B。「搭载 AI 处理器的高效推理芯片将是大模型落地更合理的选择, 这也是推进普惠 AI 的关键所在。」

爱芯智眸 AI-ISP 和爱芯通元 NPU

在 AI 芯片的研发上, 爱芯元智打造了广受业界认可的爱芯智眸 AI-ISP 和爱芯通元混合精度 NPU 两大自研核心技术。其中, 爱芯智眸 AI-ISP 是将深度学习算法与传统的 ISP 处理单元相结合, 利用像素级 AI 处理技术, 在各种复杂应用场景中, 全面提升成像效果, 为后期智能处理提供高质量的图像、视频素材, 作为万物智能的「眼睛」感知更多信息, 特别是暗光全彩的刚需。

爱芯通元混合精度 NPU 是以算子为原子指令集的 AI 计算处理器, 采用多线程异构多核设计, 实现算子、网络微结构、数据流和内存访问优化, 高效支持混合精度算法设计, 原生支持 Transformer 网络结构, 为大模型在边缘侧、端侧的应用提供良好的基础。

仇肖莘谈到, 爱芯元智现阶段奉行以「AIoT+ADAS」为主的一体两翼战略路线, 在 AI 大模型进入边侧和端侧的过程中, 智慧城市和智能汽车都是非常具有代表性的应用场景。「目前端侧大模型落地依然在前期探索阶段, 我认为智能汽车、AI 手机和 AIPC 将会是第一批落地的场景, 智能驾驶之所以需要端侧大模型原因在于汽车对实时性的要求更高。」

爱芯智眸 AI-ISP 作为 AI 芯片的子系统, 为解决很多端侧场景图像问题提供了强力支持。比如在智能驾驶场景中, 爱芯智眸 AI-ISP 提供 AI 星光全彩、AI HDR 成像、AI 多光谱融合、AI 防抖、AI 场景增强、AI 多传感器融合六大技术亮点, 能够帮助智能汽车在大雨、大雾、夜间和隧道等恶劣的驾驶环境中获取清晰的图像。

当然,AI 技术的发展也在推动 AI-ISP 的创新。以爱芯智眸 AI-ISP 来说, 目前 AI 算法已经取代了降噪模块、防抖模块。仇肖莘认为, 后续 AI-ISP 发展一个值得探索的方向是,AI-ISP 是不是也能够成为一个「黑盒式」的 AI 大模型, 用 AI 算法取代更多 ISP 中的功能单元, 使得 AI-ISP 能够利用 CMOS 图像传感器的信号直接成像, 让用户不必再去考虑 ISP 工作的中间环节。

在 AI 芯片的打造上, 爱芯通元混合精度 NPU 的优点不只是原生支持 Transformer 网络结构, 还包括通过可编程数据流 DSA 架构, 能够覆盖目前用户需要的基本算子, 成本、效能和运算效率都非常高。仇肖莘说,「AI 算法发展至今已经非常成熟, 进入一个较为稳定的状态, 因此用户对于算子的需求不再有日新月异的变化, 这是爱芯元智能够打造通用 AI 处理器的关键。」

根据爱芯元智联合创始人、副总裁刘建伟的介绍, 此次论坛上正式发布的爱芯通元 AI 处理器在高中低三档算力中已完成布局, 并在智慧城市和辅助驾驶两个领域实现了规模化量产, 能效比较 GPGPU 芯片提升了一个数量级, 而在以文搜图、通用检测、以图生文、AI Agent 等通用大模型应用中, 爱芯通元 AI 处理器也可以让 AI 开发者以更低的成本进行高效开发。

爱芯元智联合创始人、副总裁刘建伟

让端侧更好地承载 AI 大模型

根据《2024 年中国 AI 大模型产业发展报告》, 截至 2024 年 3 月, 国内部署大模型的企业数量超 243 家, 以通用大模型为主。不过, 我们都知道 AI 大模型成功的关键在于行业大模型、端侧、端云结合等多种模式并行。

端侧大模型的部署所面临的挑战和云端是完全不同的, 需要克服能耗的限制, 还需要在足够小的参数下, 做到大部分日常工作。在 WAIC 2024 上, 爱芯元智在自己的展台上也展示了其 AI 芯片在部署端侧大模型方面的能力。

案例一是基于爱芯元智端侧小芯片 AX630C 部署语言大模型——阿里云通义千问 Qwen2.0。AX630C 提供 3.2T 的算力, 通过运载通义千问 Qwen2.0, 可以流畅地实现人机对话, 查询信息、日常交流等任务。AX630C 运载通义千问 Qwen2.0 每秒能处理超过 10 个信息单元, 但功耗只有 1.5 瓦。

案例二是爱芯元智端 AX650N 结合 CLIP 模型可以实现以文搜图的功能, 只需要一个词、一句话或一段文字, 系统就能迅速准确地从海量图片中找到匹配项。

案例三是基于爱芯元智端 AX650N 运转多模态多维感知大模型 OWL-ViT 大模型, 精准完成对未知目标检测, 实现图像自动标签化。

正如上文提到的, 爱芯通元 AI 处理器提供完备的算子集合, 因此对于市面上的大模型能够提供非常好的支持, 并且适配的速度是非常快的。比如, 今年 4 月份,Meta 发布了 Meta Llama 3 系列语言模型 (LLM), 具体包括一个 8B 模型和一个 70B 模型。随后不久, 爱芯元智就宣布, 爱芯通元 AI 处理器完成 Llama 3 和 Phi-3 大模型适配。在 Llama 3 模型的适配上, 爱芯元智 AX650N 芯片适配了 Llama 3 8B Int8 版本, 若采用 Int4 量化, 每秒 token 数还能再翻一倍, 能满足正常的人机交流。仇肖莘强调, 爱芯元智的 AI 芯片对 INT2、INT4、INT8、INT16 混合精度算力都可以支持。

AI 大模型的发展已经进入一个新阶段, 行业大模型以及云边端结合的大模型是下一步发展重点。在端侧运转大模型有不一样的挑战, 能耗和参数规模都会受到限制, 但用户体验不能打折。爱芯通元 AI 处理器以及爱芯元智 AX650N 等 AI 芯片展示出了非常好的端侧大模型支持能力, 在普惠 AI 的道路上迈出了坚实一步。

来源:互联网

 

最新文章

极客公园

用极客视角,追踪你不可错过的科技圈.

极客之选

新鲜、有趣的硬件产品,第一时间为你呈现。

张鹏科技商业观察

聊科技,谈商业。