端侧 AI 加速落地，面壁要补的是一整条基础设施链

过去两年，大模型行业最熟悉的叙事，是更大的模型、更大的集群，以及更强的云端能力。

但当 AI 真正进入手机、汽车、PC、智能家居、无人机甚至潜水器，一个更现实的问题开始出现：模型能不能在有限的内存、功耗、带宽和成本里持续运行？

云端模型可以依靠更大的 GPU 集群继续扩张，但终端设备不能无限堆算力。端侧 AI 面对的是另一套约束：模型要足够小，能力要足够强，响应要足够快，功耗要足够低，还要和芯片、系统、场景深度适配。

这也是面壁智能在今年智源大会上释放出的核心信号。

6 月 12 日，2026 第八届北京智源大会期间，面壁智能集中展示了 MiniCPM5-1B、BitCPM-CANN、UltraData、ForgeTrain、PilotDeck 等一系列技术成果，并联合北京智源人工智能研究院、OpenBMB 开源社区发起“智能体+硬件创新加速孵化器”。

如果把这些成果分开看，它们分别属于模型、低比特训练、数据、训练框架和智能体系统。但放在端侧 AI 的语境里，它们其实在回答同一个问题：当 AI 离开数据中心，进入真实终端，怎样才能从“跑得动”走向“用得起来”。

端侧 AI 的问题，已经不只是模型够不够强

面壁智能最核心的技术叙事，一直围绕一个词展开：密度。

李大海此前提出过“大模型知识密度定律”，即达到特定智能水平所需参数量会随时间快速下降。换句话说，同样的模型能力，正在被压缩进越来越小的参数规模里。

这一次，面壁给出的代表性样本是 MiniCPM5-1B。

根据面壁披露，MiniCPM5-1B 仅有 1B 参数，却在 Artificial Analysis 榜单上取得 17.9 分，在 2B 以下端侧大模型中排名第一。李大海在群访中提到，2024 年 5 月发布的 GPT-4o 在同一类榜单上的得分只比它高零点几分，而参数规模约为 200B。

这个对比当然需要放在具体榜单和测试条件下理解。但它指向的趋势很明确：端侧模型不再只是云端大模型的低配版，而是在通过更高的能力密度，重新定义“足够小”和“足够强”之间的关系。

对终端厂商来说，这个变化很关键。

手机、汽车、智能硬件很难像云端服务一样，把每一次 AI 调用都变成持续的后付费成本。用户买了一台车或一部手机，并不会自然接受再为每次 AI 体验订阅付费。李大海在圆桌中把这称为 Token 经济学的一部分：端和云一定会协同，但凡端侧能做的，终端厂商都会希望尽量在端上完成。

这也解释了为什么端侧 AI 的落地不只是技术问题，也是商业问题。

如果模型只能在云端工作，终端厂商要承担持续推理成本；如果模型能在端上完成上下文管理、高频交互和部分推理任务，云端则可以承担更复杂、更低频或更重的能力补充。端云协同不是折中方案，而是端侧 AI 走向规模化的现实路径。

面壁要做的，是从“装得下”到“干得了活”

端侧 AI 的第一道门槛，是内存。

模型一旦进入手机、车机、机器人和其他终端设备，最紧张的资源往往不是理论算力，而是内存、带宽和功耗。面壁这次开源的 BitCPM-CANN，正是从这道门槛切入。

官方资料显示，BitCPM-CANN 是中国首个完全在国产昇腾算力上训练并开源的 1.58-bit 三值大模型，从量化算子、训练算法到全链路框架都在昇腾平台原生完成，一次放出 0.5B 到 8B 四档尺寸。1.58-bit 的意义不只是位宽更低，而是让同样内存能够容纳更大的模型，或让原本带不动模型的设备获得运行能力。

BitCPM-CANN 相比 BF16 可释放约 6 倍实际显存红利，8B 模型在多项评测中保留了全精度模型大部分能力。面壁智能CEO李大海在群访中表示，1.58-bit 在当前阶段已经接近压缩极限，更重要的是在高压缩比下尽量降低性能损失。

这背后对应的是面壁和华为在极低位宽量化感知训练上的协同。李宇轩澄清，外界提到的 95% 效率，并不是指华为平台相对英伟达平台达到 95%，而是指在华为平台上，极低位宽量化感知训练相对普通训练达到 95% 的效率。量化器会带来额外开销，面壁与华为合作将这部分损失控制在较低水平，验证了低位宽训练链路在国产算力平台上的可行性。

这件事的意义，不只在低比特模型本身。

过去，国产芯片更多被用于推理，训练仍高度依赖英伟达生态。李大海提到，今年开始，训练工作也在逐步向国产芯片、国产集群迁移。但训练比推理对精度和软件生态要求更高，一张卡如果只做过推理、没有经过训练验证，可能会遇到意想不到的底层问题。

因此，面壁一方面和国产芯片厂商、智算中心做深度适配，另一方面参与智源研究院主导的 FlagOS 软件生态建设。前者是模型公司用真实训练任务牵引芯片和软件栈逐步完善，后者则是从更高层做生态规划，把更多芯片公司纳入同一套协同体系里。

如果说 BitCPM-CANN 解决的是“装得下”，那么 UltraData、ForgeTrain 和 PilotDeck 解决的则是后面的几步：怎么喂好模型，怎么更高效训练模型，以及怎么让模型真正进入任务流。

UltraData 把数据治理拆成 L0 到 L4 五级，从原始数据、过滤数据、精筛数据，到合成增强数据和可编排数据。资料显示，Ultra-FineWeb-L3 对外发布约 600B tokens，其中英文 400B+、中文 200B+；UltraData-SFT-2605 则是千万级、包含深思考与非思考标注的后训练数据。

ForgeTrain 是另一个值得注意的信号。按照面壁说法，它是全球首个完全由 AI 编写的生产级大模型训练框架，在 H100 上训练速度比 Megatron 快约 10%，同时原生适配华为昇腾系列。MiniCPM5-1B 的 Base 版本，正是由 ForgeTrain 预训练出来。

再往下，则是 PilotDeck。这个由清华 THUNLP、面壁智能、OpenBMB 与 AI9stars 联合开源的智能体操作系统，试图把模型能力转化为持续工作的 Agent 系统。资料显示，其智能路由可以根据任务难度自动分配模型，在部分社媒场景中节省约 70% 成本；更复杂任务上，用 1/6 成本达到超过 Claude Sonnet 4.6 的效果。

从这个角度看，面壁这次不是在发布一组彼此独立的技术成果，而是在补一条链：先把内存腾出来，再填进足够聪明的小模型，用高密度数据把它喂好，让 AI 提升训练效率，最后交给智能体系统进入真实任务。

端侧 AI 真正要落地，靠的不是某一个“黑科技”，而是这条链能不能同时跑通。

下一步竞争，是模型公司和硬件生态的协同

端侧 AI 的另一个变化，是模型公司不能只做模型。

李大海把面壁的长期定位定义为“端侧模型的基础设施”。这包含三层意思：持续发布端侧基础模型，赋能开发者和行业伙伴；直接服务出货量大的核心设备厂商；同时探索 AI 原生端侧设备新物种。

这个定位背后，是端侧 AI 和云端 AI 完全不同的产业关系。

云端模型的主要约束是算力集群、数据和训练工程；端侧模型则必须进入具体设备，与芯片、系统、功耗、交互和场景一起被定义。李大海在群访中提到，终端厂商选择模型合作伙伴，主要看三个因素：模型厂商能否持续训练出知识密度足够高的端侧模型；是否与上游芯片厂商有深度协同；以及是否具备高效推理能力。

这也是面壁强调高通合作的原因。按照李大海的说法，面壁与高通已经形成全球战略合作，并达到协同设计程度。对手机、汽车这类功耗敏感设备来说，同等效果下，如果推理功耗能显著降低，就是巨大的竞争优势。

落地侧，面壁已经给出了一些场景。

在汽车领域，面壁端侧模型已经进入智能座舱。材料中提到，搭载面壁量产级多模态模型的座舱，可以在本地完成“感知-记忆-推理-执行”的闭环，自动调节车窗、空调等功能，并在事故场景下完成状态识别、情绪安抚和理赔流程引导。李大海还以吉利银河 M9 为例称，相关功能并非默认开启，但用户主动开启比例较高，显示出一定用户认可。

汽车之外，面壁的端侧模型也已部署到国内外多家手机厂商产品中，并进入无人机、潜水器等特种智能终端。

这些场景共同指向一个判断：端侧 AI 的价值，不只是把云端能力搬到本地，而是改变人与设备的交互方式。

李大海在谈到手机智能体时，用云游戏做了一个类比。云游戏在理论上可以把渲染放到云端，但用户对交互帧率和稳定性要求极高，不希望出现无预期卡顿。人与设备的 AI 交互也是类似逻辑：越高频、越即时、越贴近个人隐私和设备状态，越适合在端侧完成。

所以，端侧模型与智能体结合，会成为一个自然方向。它不会要求所有任务都在端上闭环，但会把上下文、隐私敏感任务、高频推理和实时交互尽量放在本地，让云端成为补充而不是唯一入口。

面壁这次联合智源、OpenBMB 发起“智能体+硬件创新加速孵化器”，也是同一条逻辑的延伸。这个孵化器聚焦 AI 智能体、下一代 AI 硬件、AI 垂直场景应用三大赛道，为早期项目提供最高 500 万元综合投资支持，以及算力、Token、API、技术支持、产业客户和投融资对接等资源。

这意味着，面壁想做的不只是模型供应商，而是把端侧模型、开源社区、芯片伙伴、硬件创业项目和终端场景连接起来。

当然，端侧 AI 还远没有到终局。

国产算力的软件生态仍要补课，端侧芯片和模型的协同还需要继续打磨，智能体距离“零介入、100% 完成、100% 负责”也还有明显距离。李大海自己也承认，智能体现在“哪哪都是问题”，只是技术正在快速进化。

但这恰恰说明，端侧 AI 的竞争才刚刚进入真正复杂的阶段。

过去，小模型要证明自己“足够强”；现在，它还要证明自己能被压缩、被训练、被部署、被调度，并在真实设备和真实业务里持续工作。

面壁这次想讲的故事，也不再只是“小钢炮”本身，而是一整条端侧 AI 基础设施链。

端侧 AI 的问题，已经不只是模型够不够强

面壁要做的，是从“装得下”到“干得了活”

下一步竞争，是模型公司和硬件生态的协同

最新文章