
2025 年 12 月 18 日,浙大系创业公司魔芯科技在华为(杭州)全球培训中心正式发布自研交互式视频世界模型。这是国内首个基于全国产算力实现数分钟级、全高清实时交互的世界模型,标志着中国在空间智能领域迈入世界第一梯队。
2025 年 12 月 18 日,浙大系创业公司魔芯科技在华为(杭州)全球培训中心正式发布自研交互式视频世界模型。这是国内首个基于全国产算力实现数分钟级、全高清实时交互的世界模型,标志着中国在空间智能领域迈入世界第一梯队。
从 3D 打印到空间智能:魔芯科技的战略转型
魔芯科技创始人陈天润在发布会上表示,公司基于过去在消费级 3D 打印和三维物体生成领域的深厚技术积累,现已全面转型空间智能与世界模型的研发。当前的成果是我们向通用人工智能迈出的关键一步,它能让 AI 真正理解、推理并创造三维世界。
据悉,魔芯科技近期已完成由知名产业机构领投的数亿元融资,资金将用于魔芯科技的空间智能算法的持续研发与商业化落地。
国产算力全栈支撑:华为昇腾 910C 铸就硬核实力
魔芯科技的 KOKONI-World 的诞生完全依托国产信创算力体系。魔芯科技与华为昇腾云深度合作,基于华为昇腾 910C芯片构建的Matrix384 超节点集群完成模型训练与推理。
昇腾 910C 的大显存优势使 KOKONI-World 实现了长达2000 帧(约 2 分钟)的超长世界记忆,用户在场景中探索后返回原点,所有物体的空间关系依然保持高度一致。同时,昇腾910C 的高通讯带宽特性支撑模型在1080p 全高清分辨率下实现实时响应,生成流畅无卡顿的视频流。此外,KOKONI-World 支持完整的6 自由度(6-DoF)精确相机控制,用户可通过键盘鼠标精准操控视角,实现游戏级的沉浸式交互体验。
核心技术创新
KOKONI-World 的卓越性能背后,是魔芯科技在底层算法上的多项原创突破:
精细坐标相机控制:KOKONI-World 引入基于坐标的精细化相机控制方案,将物理相机参数(包括旋转矩阵、位置向量、焦距等)转换为紧凑的 pixel-aligned 几何表示,实现了对虚拟相机运动的像素级精确控制。
相机感知记忆结构:模型创新性地将历史视觉信息与相机位姿进行联合编码,构建了一套"相机感知"的长时域记忆系统。该系统能够根据当前视角智能检索相关的历史场景信息,确保用户在大范围探索后返回时,场景的几何结构与视觉细节保持高度一致。
多 Prompt 渐进式注入:基于多卡的硬件特点,精心设计了多 Prompt 渐进注入分片后模型的机制,实现实时根据用户想法触发新的内容生成的功能。
级联式知识蒸馏:为实现实时推理,魔芯科技采用多阶段级联蒸馏方案,将复杂的多步去噪过程压缩为少步采样,配合端侧的小模型,实现实时 1080p 分辨率的内容输出。

行业领先:多维度超越现有方案
相较于业界现有的世界模型方案,KOKONI-World 在多个关键维度上实现了显著突破。在记忆时长方面,KOKONI-World 可维持长达 2 分钟的场景一致性,远超 Google Genie-3 的 60 秒和腾讯混元 WorldPlay 的 20 秒,为用户提供了真正意义上的"无限探索"体验。在视觉质量上,KOKONI-World 率先实现 1080p 全高清输出,而多数竞品仍停留在 720p 甚至更低分辨率。在交互精度上,KOKONI-World 的 6-DoF 精确相机控制能力,使其动作响应准确度显著优于同类产品,用户的每一个操作指令都能得到精准、符合物理直觉的视觉反馈。
更为重要的是,KOKONI-World 是目前唯一一款完全基于国产算力实现训练与推理的世界模型,从芯片到框架实现全栈自主可控,为我国在这一战略性技术领域的自主发展树立了重要标杆。
展望未来
KOKONI-World 的发布,是国产 AI 算力与前沿模型创新深度协同的里程碑。魔芯科技表示,将持续深耕空间智能领域,携手华为昇腾生态,为自动驾驶、机器人、游戏娱乐、影视制作等行业提供世界级的三维智能解决方案,共同开启智能时代新篇章。

来源:互联网



