端侧 AI 加速落地,面壁要补的是一整条基础设施链

摘要

当模型真正走进手机、汽车和智能硬件,端侧 AI 的竞争,正在从单点模型能力变成一整套基础设施能力。

 

过去两年,大模型行业最熟悉的叙事,是更大的模型、更大的集群,以及更强的云端能力。

但当 AI 真正进入手机、汽车、PC、智能家居、无人机甚至潜水器,一个更现实的问题开始出现:模型能不能在有限的内存、功耗、带宽和成本里持续运行?

云端模型可以依靠更大的 GPU 集群继续扩张,但终端设备不能无限堆算力。端侧 AI 面对的是另一套约束:模型要足够小,能力要足够强,响应要足够快,功耗要足够低,还要和芯片、系统、场景深度适配。

这也是面壁智能在今年智源大会上释放出的核心信号。

6 月 12 日,2026 第八届北京智源大会期间,面壁智能集中展示了 MiniCPM5-1B、BitCPM-CANN、UltraData、ForgeTrain、PilotDeck 等一系列技术成果,并联合北京智源人工智能研究院、OpenBMB 开源社区发起“智能体+硬件创新加速孵化器”。

如果把这些成果分开看,它们分别属于模型、低比特训练、数据、训练框架和智能体系统。但放在端侧 AI 的语境里,它们其实在回答同一个问题:当 AI 离开数据中心,进入真实终端,怎样才能从“跑得动”走向“用得起来”。

端侧 AI 的问题,已经不只是模型够不够强

面壁智能最核心的技术叙事,一直围绕一个词展开:密度。

李大海此前提出过“大模型知识密度定律”,即达到特定智能水平所需参数量会随时间快速下降。换句话说,同样的模型能力,正在被压缩进越来越小的参数规模里。

这一次,面壁给出的代表性样本是 MiniCPM5-1B。

根据面壁披露,MiniCPM5-1B 仅有 1B 参数,却在 Artificial Analysis 榜单上取得 17.9 分,在 2B 以下端侧大模型中排名第一。李大海在群访中提到,2024 年 5 月发布的 GPT-4o 在同一类榜单上的得分只比它高零点几分,而参数规模约为 200B。

这个对比当然需要放在具体榜单和测试条件下理解。但它指向的趋势很明确:端侧模型不再只是云端大模型的低配版,而是在通过更高的能力密度,重新定义“足够小”和“足够强”之间的关系。

对终端厂商来说,这个变化很关键。

手机、汽车、智能硬件很难像云端服务一样,把每一次 AI 调用都变成持续的后付费成本。用户买了一台车或一部手机,并不会自然接受再为每次 AI 体验订阅付费。李大海在圆桌中把这称为 Token 经济学的一部分:端和云一定会协同,但凡端侧能做的,终端厂商都会希望尽量在端上完成。

这也解释了为什么端侧 AI 的落地不只是技术问题,也是商业问题。

如果模型只能在云端工作,终端厂商要承担持续推理成本;如果模型能在端上完成上下文管理、高频交互和部分推理任务,云端则可以承担更复杂、更低频或更重的能力补充。端云协同不是折中方案,而是端侧 AI 走向规模化的现实路径。

面壁要做的,是从“装得下”到“干得了活”

端侧 AI 的第一道门槛,是内存。

模型一旦进入手机、车机、机器人和其他终端设备,最紧张的资源往往不是理论算力,而是内存、带宽和功耗。面壁这次开源的 BitCPM-CANN,正是从这道门槛切入。

官方资料显示,BitCPM-CANN 是中国首个完全在国产昇腾算力上训练并开源的 1.58-bit 三值大模型,从量化算子、训练算法到全链路框架都在昇腾平台原生完成,一次放出 0.5B 到 8B 四档尺寸。1.58-bit 的意义不只是位宽更低,而是让同样内存能够容纳更大的模型,或让原本带不动模型的设备获得运行能力。

BitCPM-CANN 相比 BF16 可释放约 6 倍实际显存红利,8B 模型在多项评测中保留了全精度模型大部分能力。面壁智能CEO李大海在群访中表示,1.58-bit 在当前阶段已经接近压缩极限,更重要的是在高压缩比下尽量降低性能损失。

这背后对应的是面壁和华为在极低位宽量化感知训练上的协同。李宇轩澄清,外界提到的 95% 效率,并不是指华为平台相对英伟达平台达到 95%,而是指在华为平台上,极低位宽量化感知训练相对普通训练达到 95% 的效率。量化器会带来额外开销,面壁与华为合作将这部分损失控制在较低水平,验证了低位宽训练链路在国产算力平台上的可行性。

这件事的意义,不只在低比特模型本身。

过去,国产芯片更多被用于推理,训练仍高度依赖英伟达生态。李大海提到,今年开始,训练工作也在逐步向国产芯片、国产集群迁移。但训练比推理对精度和软件生态要求更高,一张卡如果只做过推理、没有经过训练验证,可能会遇到意想不到的底层问题。

因此,面壁一方面和国产芯片厂商、智算中心做深度适配,另一方面参与智源研究院主导的 FlagOS 软件生态建设。前者是模型公司用真实训练任务牵引芯片和软件栈逐步完善,后者则是从更高层做生态规划,把更多芯片公司纳入同一套协同体系里。

如果说 BitCPM-CANN 解决的是“装得下”,那么 UltraData、ForgeTrain 和 PilotDeck 解决的则是后面的几步:怎么喂好模型,怎么更高效训练模型,以及怎么让模型真正进入任务流。

UltraData 把数据治理拆成 L0 到 L4 五级,从原始数据、过滤数据、精筛数据,到合成增强数据和可编排数据。资料显示,Ultra-FineWeb-L3 对外发布约 600B tokens,其中英文 400B+、中文 200B+;UltraData-SFT-2605 则是千万级、包含深思考与非思考标注的后训练数据。

ForgeTrain 是另一个值得注意的信号。按照面壁说法,它是全球首个完全由 AI 编写的生产级大模型训练框架,在 H100 上训练速度比 Megatron 快约 10%,同时原生适配华为昇腾系列。MiniCPM5-1B 的 Base 版本,正是由 ForgeTrain 预训练出来。

再往下,则是 PilotDeck。这个由清华 THUNLP、面壁智能、OpenBMB 与 AI9stars 联合开源的智能体操作系统,试图把模型能力转化为持续工作的 Agent 系统。资料显示,其智能路由可以根据任务难度自动分配模型,在部分社媒场景中节省约 70% 成本;更复杂任务上,用 1/6 成本达到超过 Claude Sonnet 4.6 的效果。

从这个角度看,面壁这次不是在发布一组彼此独立的技术成果,而是在补一条链:先把内存腾出来,再填进足够聪明的小模型,用高密度数据把它喂好,让 AI 提升训练效率,最后交给智能体系统进入真实任务。

端侧 AI 真正要落地,靠的不是某一个“黑科技”,而是这条链能不能同时跑通。

下一步竞争,是模型公司和硬件生态的协同

端侧 AI 的另一个变化,是模型公司不能只做模型。

李大海把面壁的长期定位定义为“端侧模型的基础设施”。这包含三层意思:持续发布端侧基础模型,赋能开发者和行业伙伴;直接服务出货量大的核心设备厂商;同时探索 AI 原生端侧设备新物种。

这个定位背后,是端侧 AI 和云端 AI 完全不同的产业关系。

云端模型的主要约束是算力集群、数据和训练工程;端侧模型则必须进入具体设备,与芯片、系统、功耗、交互和场景一起被定义。李大海在群访中提到,终端厂商选择模型合作伙伴,主要看三个因素:模型厂商能否持续训练出知识密度足够高的端侧模型;是否与上游芯片厂商有深度协同;以及是否具备高效推理能力。

这也是面壁强调高通合作的原因。按照李大海的说法,面壁与高通已经形成全球战略合作,并达到协同设计程度。对手机、汽车这类功耗敏感设备来说,同等效果下,如果推理功耗能显著降低,就是巨大的竞争优势。

落地侧,面壁已经给出了一些场景。

在汽车领域,面壁端侧模型已经进入智能座舱。材料中提到,搭载面壁量产级多模态模型的座舱,可以在本地完成“感知-记忆-推理-执行”的闭环,自动调节车窗、空调等功能,并在事故场景下完成状态识别、情绪安抚和理赔流程引导。李大海还以吉利银河 M9 为例称,相关功能并非默认开启,但用户主动开启比例较高,显示出一定用户认可。

汽车之外,面壁的端侧模型也已部署到国内外多家手机厂商产品中,并进入无人机、潜水器等特种智能终端。

这些场景共同指向一个判断:端侧 AI 的价值,不只是把云端能力搬到本地,而是改变人与设备的交互方式。

李大海在谈到手机智能体时,用云游戏做了一个类比。云游戏在理论上可以把渲染放到云端,但用户对交互帧率和稳定性要求极高,不希望出现无预期卡顿。人与设备的 AI 交互也是类似逻辑:越高频、越即时、越贴近个人隐私和设备状态,越适合在端侧完成。

所以,端侧模型与智能体结合,会成为一个自然方向。它不会要求所有任务都在端上闭环,但会把上下文、隐私敏感任务、高频推理和实时交互尽量放在本地,让云端成为补充而不是唯一入口。

面壁这次联合智源、OpenBMB 发起“智能体+硬件创新加速孵化器”,也是同一条逻辑的延伸。这个孵化器聚焦 AI 智能体、下一代 AI 硬件、AI 垂直场景应用三大赛道,为早期项目提供最高 500 万元综合投资支持,以及算力、Token、API、技术支持、产业客户和投融资对接等资源。

这意味着,面壁想做的不只是模型供应商,而是把端侧模型、开源社区、芯片伙伴、硬件创业项目和终端场景连接起来。

当然,端侧 AI 还远没有到终局。

国产算力的软件生态仍要补课,端侧芯片和模型的协同还需要继续打磨,智能体距离“零介入、100% 完成、100% 负责”也还有明显距离。李大海自己也承认,智能体现在“哪哪都是问题”,只是技术正在快速进化。

但这恰恰说明,端侧 AI 的竞争才刚刚进入真正复杂的阶段。

过去,小模型要证明自己“足够强”;现在,它还要证明自己能被压缩、被训练、被部署、被调度,并在真实设备和真实业务里持续工作。

面壁这次想讲的故事,也不再只是“小钢炮”本身,而是一整条端侧 AI 基础设施链。

 

最新文章

极客公园

用极客视角,追踪你不可错过的科技圈.

极客之选

新鲜、有趣的硬件产品,第一时间为你呈现。

张鹏科技商业观察

聊科技,谈商业。