摩尔线程公布 GPU 架构路线图：以「花港」新架构与万卡训练集群，开启自主算力新时代

摩尔线程首届 MUSA 开发者大会在北京中关村国际创新中心正式开幕。作为国内首个聚焦全功能 GPU 的开发者技术盛会，大会系统展示了摩尔线程以自主 MUSA 统一架构为核心的全栈技术成果，全面展现公司在高端全功能 GPU 领域的关键突破与前瞻布局。

本次发布的核心成果包括：

1、新架构「花港」亮相：全功能 GPU 架构「花港」，支持 FP4 到 FP64 的全精度计算，算力密度提升 50%，效能提升 10 倍。未来并将基于该架构推出高性能 AI 训推一体「华山」芯片与专攻高性能图形渲染的「庐山」芯片。

2、「夸娥万卡」高效训练：发布夸娥万卡智算集群，展示了其支撑万亿参数模型训练的工程化能力与可靠性，在多项关键精度指标上达到国际主流水平。

3、推理性能实现跨越：摩尔线程联合硅基流动，在 DeepSeek R1 671B 全量模型上实现性能突破，MTT S5000 单卡 Prefill 吞吐突破 4000 tokens/s、Decode 吞吐突破 1000 tokens/s，树立国产推理性能新标杆。

4、超节点架构前瞻：分享面向下一代超大规模智算中心的 MTT C256 超节点架构，着眼高密硬件架构，实现极致智算性能。

5、全新个人智算平台：正式发布搭载智能 SoC 芯片「长江」的 AI 算力本 MTT AIBOOK，赋能「摩尔学院」20 万开发者与学习者。

6、图形进化与前沿探索：揭晓硬件级光线追踪加速与自研 AI 生成式渲染技术，具身智能、科学智能（AI4S）、AI for 6G 等前沿领域的深度布局，进一步印证了全功能 GPU 技术路线的广度与面向未来的可扩展性。

这一系列成果的发布，标志着摩尔线程已成功构建起一套以自主统一架构为根基、贯穿「芯-边-端-云」的完整技术栈，实现了从底层硬件到上层应用的系统化闭环。该体系为国产智能计算生态的持续演进与产业融合，提供了坚实、开放且可持续的平台级支撑。

战略基石：MUSA 统一架构的进化与开放

MUSA（Meta-computing Unified System Architecture）是摩尔线程自主研发的元计算统一计算架构，覆盖从芯片架构、指令集、编程模型到软件运行库及驱动程序框架等的全栈技术体系。

MUSA 不仅完整定义了从芯片设计到软件生态的统一技术标准，更代表了公司坚持底层创新、践行长期主义的战略核心，并为全功能 GPU奠定了坚实的技术根基，可高效支持 AI 计算、图形渲染、物理仿真和科学计算、超高清视频编解码等全场景高性能计算。

历经五年深度研发与持续迭代，MUSA 实现了软件性能的指数级跨越。全新升级的 MUSA 5.0 标志着架构步入成熟新阶段，在全栈统一性、极致效能与生态开放性上取得关键突破。

编程生态全面升级：原生 MUSA C，深度兼容 TileLang、Triton 等编程语言，为开发者提供灵活高效的全栈开发体验。
计算效能极致优化：核心计算库 muDNN 实现 GEMM/FlashAttention 效率超 98%，通信效率达 97%，编译器性能提升 3 倍，并集成高性能算子库，显著加速训练与推理全流程。
开源生态持续扩大：计划逐步开源计算加速库、通信库及系统管理框架在内的核心组件，向开发者社区开放深度优化的底层能力。
前沿特性拓展边界：即将推出兼容跨代 GPU 指令架构的中间语言 MTX、面向渲染+AI 融合计算的编程语言 muLang、量子计算融合框架 MUSA-Q，以及计算光刻库 muLitho，持续拓展全功能 GPU 的算力边界。

硬件核心：「花港」新架构与技术路线图

基于 MUSA 统一体系，摩尔线程揭晓新一代全功能 GPU 架构「花港」，该架构在计算密度、能效、精度支持、互联能力及图形技术等方面实现全面突破，其核心特性包括：

计算性能显著提升：基于新一代指令集，算力密度提升 50%，能效大幅优化；支持从 FP4 到 FP64 的全精度端到端计算，新增 MTFP6/MTFP4 及混合低精度支持。
异步编程与超大规模互联：集成新一代异步编程模型，优化任务调度与并行机制；通过自研 MTLink 高速互联技术，支持十万卡以上规模智算集群扩展。
图形与 AI 深度融合：内置 AI 生成式渲染架构，增强硬件光线追踪加速引擎，完整支持 DirectX 12 Ultimate，实现图形渲染与智能计算的高度协同。
全栈自研与安全可信：架构基于全栈自主研发，拥有扎实的专利壁垒（截至 2025 年 6 月 30 日，公司累计授权专利 514 项，其中发明专利 468 项），具备全栈自研与自主可控的核心能力。通过四层硬件安全架构，提供从芯片到系统的可验证安全守护。

基于「花港」架构，摩尔线程公布了未来将发布的两款芯片技术路线：

「华山」专注 AI 训推一体与超大规模智能计算。集成新一代异步编程与全精度张量计算单元，支持从 FP4 至 FP64 的全精度计算，为万卡级智算集群提供稳定高效的算力支撑，是构建下一代「AI 工厂」的坚实底座。
「庐山」专攻高性能图形渲染。其图形性能实现全面跨越：AI 计算性能提升 64 倍，几何处理性能提升 16 倍，光线追踪性能提升 50 倍，并显著增强纹理填充、原子访存能力及显存容量。集成 AI 生成式渲染、UniTE 统一渲染架构及全新硬件光追引擎，为 3A 游戏、高端图形创作提供强大算力支持。

基础设施：夸娥万卡集群，树立国产智算效率标杆

本次大会正式发布了夸娥万卡智算集群。该集群具备全精度、全功能通用计算能力，在万卡规模下实现高效稳定的 AI 训练与推理。其核心突破包括：浮点运算能力达到 10Exa-Flops，训练算力利用率（MFU）在 Dense 大模型上达 60%，MOE 大模型上达 40%，有效训练时间占比超过 90%，训练线性扩展效率达 95%，与国际主流生态高度兼容，并在多项指标上具备显著能效优势。

在训练侧，基于原生 FP8 能力完整复现顶尖大模型训练流程，并在多项关键精度指标上达到国际主流水平。技术层面实现关键优化：Flash Attention 算力利用率超 95%，并突破 FP8 累加精度等关键技术瓶颈，充分释放国产 GPU 在大模型训练中的性能潜力。
在推理侧，摩尔线程联合硅基流动，经过系统级工程优化与 FP8 精度加速，在 DeepSeek R1 671B 全量模型上实现性能突破：MTT S5000 单卡 Prefill 吞吐突破 4000 tokens/s、Decode 吞吐突破 1000 tokens/s，树立国产推理性能新标杆。
面向未来，发布了MTT C256 超节点的架构规划。该产品采用计算与交换一体化的高密设计，旨在系统性提升万卡集群的训练效能与推理能力，为下一代超大规模智算中心构建兼具超高密度与极致能效的硬件基石。

迈向物理 AI：图形技术持续进化，前瞻布局未来计算

在图形计算领域，摩尔线程持续推动国产 GPU 向兼容性更广、技术更深的方向发展。其产品已全面支持 DirectX 12、OpenGL 4.6、Vulkan 1.3 等主流图形与计算 API，并与国产主流 CPU 及操作系统完成了全栈适配，持续扩展游戏及专业应用的兼容覆盖。公司同时宣布，即将完整支持 DirectX 12 Ultimate，进一步接轨行业顶级图形标准。

在核心渲染技术上，摩尔线程率先拥抱「图形+AI」范式革命，实现两项关键突破：

迈入实时光追时代：基于「花港」架构的硬件光线追踪加速引擎，可实现对 DirectX Raytracing (DXR) 的支持，使实时、逼真的光影效果在国产 GPU 上成为可能。
定义 AI 生成式渲染（AGR）：推出全自研 MTAGR 1.0 技术，推动渲染技术范式从「计算」走向「生成」，为下一代数字内容创作及数字孪生等场景构建国产技术基座。

面向更广阔的未来计算场景，摩尔线程已展开前瞻性布局：

具身智能全栈赋能：发布了 MT Lambda 具身智能仿真训练平台，深度融合物理、渲染与 AI 三大引擎，构建了开发、仿真、训练的高效统一环境。推出基于智能 SoC 芯片「长江」、AI 模组 MTT E300 和夸娥智算集群「端云结合」的 MT Robot 具身智能解决方案，并宣布将于 2026 年第一季度开源关键仿真加速组件 Mujoco-warp-MUSA，以开放协作助力机器人产业研发效率提升。
前沿融合计算探索：MUSA 生态已与合作伙伴在科学智能（AI for Science）、量子科技、AI for 6G 等前沿交叉领域展开探索工作，持续拓展全功能 GPU 作为通用算力底座的技术边界与应用价值。

生态加速：全面赋能开发者，发布个人 AI 算力平台

生态建设是 GPU 行业的核心壁垒与价值所在，摩尔线程构建了从硬件工具、算力支撑到人才培养的赋能体系。

深化人才培养，建设 MUSA 生态枢纽：以摩尔学院为平台，摩尔线程已构建起产教融合的开发者成长体系，该平台汇聚近 20 万名开发者与学习者，并通过「国产计算生态与 AI 教育共建行动」将前沿技术与产业实践带入全国 200 多所高校，吸引超 10 万名学子参与。本次大会宣布建设 MUSA 生态中心，同时发布 MUSA 开发者计划，旨在为从 AI 学习探索到科研创新的各阶段创新者，提供算力支持与技术赋能。
发布 AI 算力本，提供「开箱即用」的开发体验：作为连接开发者与 MUSA 生态的核心入口，MTT AIBOOK 搭载自研「长江」智能 SoC，提供高达 50TOPS 的端侧 AI 算力，首次实现从芯片、驱动到开发环境的全栈整合，不仅实现了专业 AI 开发的「开箱即用」，更创新地打破 Linux 开发、Windows 办公与 Android 应用之间场景壁垒，将强大的 AI 能力转化为人人可及的生产力，赋能开发者在 AI 时代成为「超级个体」。

大会同时预告了基于「长江」SoC 打造的迷你型计算设备 MTT AICube，进一步丰富端侧计算产品形态。

结语：构筑自主基座，共赴智能未来

MDC 2025 展示了从统一架构到核心芯片，从超大规模基础设施到开发者终端的技术全景，这不仅是一次全功能 GPU 技术路线的系统呈现，更是摩尔线程对自主计算未来的坚定承诺。

展望未来，摩尔线程将以 MUSA 为核心，坚持开放生态，与全球开发者及伙伴携手，共同构建下一代的智能计算体系，赋能千行百业，迈向智能新纪元。