
在华为看来,UCM 不仅仅是一项技术,更是产业协作的基础。它解决了大模型推理从「能用」到「好用、用得起」的关键环节,为 Agentic AI 时代的到来打下了底层基础。
2025 年 8 月 12 日,在「金融 AI 推理应用落地与发展论坛」上,华为发布了推理记忆数据管理器 UCM(Unified Cache Manager)技术,并宣布与中国银联完成了在金融领域的落地应用。这一技术被视为破解大模型推理效率与成本难题的重要突破,尤其在长序列输入、并发响应和 Token 成本控制上,提供了系统化的解决方案。
大模型在行业应用中正越来越深入,但在落地过程中,尤其在金融、制造、政务等 2B 场景,推理的计算负担常常超出想象。例如银行的投研分析,需要模型理解和处理兆级别的调研报告与市场数据;精准营销需要综合长序列的客户上下文信息;运维和舆情分析也常常面临海量日志和多源信息的融合。这些场景都会出现三个痛点:推不动(显存不足)、推得慢(并发上不去)、推得贵(重复计算耗费大量算力)。
UCM 的出现,就是为了解决这三大问题。
它的核心原理可以类比成人类的记忆系统。AI 推理时,最贵、最快的存储位置是 GPU 显存,对应「短期记忆」——反应快,但容量小,只能记住刚刚处理的内容。长时间前的内容,如果要再次使用,就需要「翻旧账」,重新计算,这不仅耗时,还浪费算力。UCM 在 GPU 显存之外,引入了大容量的高性能闪存(SSD)作为「长期记忆」,并通过分级缓存管理,把热数据放在显存,温数据放在内存,冷数据放在闪存。当模型需要调用过去的内容时,可以直接「翻书」找到,而不用「从零算起」。
更重要的是,UCM 不只是简单加了一块闪存,而是做了软硬协同优化。例如,它在分级缓存中加入直通加速,让数据在不同介质之间高效流转;用索引检索和生命周期管理,让模型能快速定位到需要的历史结果;在算法层面,除了传统的 Prefix Cache,还增加了稀疏计算、后缀检索等多种场景化算法,加速效果更显著。华为数据存储产品线 AI 存储首席架构师李国杰介绍:「长序列定义没有统一标准,有人认为 8K 就是长,有人认为 100K 才算长,但普遍规律是序列越长,UCM 的加速效果越好。」
与业内常见的推理加速方案相比,UCM 有四个主要差异:
- 一是分级缓存管理中纳入了专业存储系统,并针对商用需求做了性能优化,这让它在长序列、高并发下依然稳定可用。
- 二是算法加速库更丰富,能覆盖更多推理场景,而不是局限于单一的缓存机制。
- 三是多场景自适应,能根据输入长度、重复率、并发情况自动切换策略,保证推理体验的稳定性。
- 四是架构可演进,为未来的 Agentic AI、多模检索、数据湖等功能预留了能力。
在问答环节中,有媒体问华为是否认为这是过渡技术。李国杰的回答是,这将是一个长期趋势。信息量的增长速度远超硬件性能提升,单纯堆算力无法支撑商业化落地,必须通过查算协同、分层存储来平衡性能与成本。华为数据存储产品线副总裁、闪存领域总裁谢黎明则用数据生命周期作类比,指出推理数据和传统结构化数据一样,有热、温、冷之分,「不可能用最贵的介质存储所有数据,分层介质是必然选择」。
华为计划在 9 月份开源 UCM 技术,希望推动形成行业统一的推理加速标准。谢黎明表示:「IT 行业是产品先行、标准随后。我们希望通过开源,让更多厂商参与,共同孵化成熟,形成标准,这样才能真正解决推理体验和推理成本的问题。」李国杰也强调,开放的目的是让更多框架厂商、存储厂商、芯片厂商在这个方向协同发展,推动整个行业向 Token 经济友好、推理体验稳定的方向演进。
在华为看来,UCM 不仅仅是一项技术,更是产业协作的基础。它解决了大模型推理从「能用」到「好用、用得起」的关键环节,为 Agentic AI 时代的到来打下了底层基础。谢黎明总结说:「不用特别强调华为的 UCM 怎么样,而是它能为整个行业贡献一份力量。未来会有更多玩家加入,这是一个大家共创繁荣的过程。」