
6 月 12 日-13 日,第 8 届智源大会在北京举行。本届大会吸引了 2 位图灵奖得主、8 位院士、30 位 30 岁以下青年科学家、40 余位 AI 企业 CEO 及创始人等参会,围绕 Agent、世界模型、具身智能、AI 自进化与 AI 安全等前沿议题展开讨论。
6 月 12 日-13 日,第 8 届智源大会在北京举行。本届大会吸引了 2 位图灵奖得主、8 位院士、30 位 30 岁以下青年科学家、40 余位 AI 企业 CEO 及创始人等参会,围绕 Agent、世界模型、具身智能、AI 自进化与 AI 安全等前沿议题展开讨论。
其中世界模型成为本届大会最受关注的议题之一,来自具身智能、机器人控制、游戏引擎、物理 AI 基础设施等不同领域的研究者提出了各自的技术路线,共同探讨世界模型相关深度议题。

昆仑万维旗下 Skywork 首席科学家刘扬受邀出席 6 月 13 日的世界模型分论坛,发表演讲以及参与圆桌讨论。在演讲环节,他以《Matrix-Game:长时序记忆下的实时流式交互式世界模型》为主题,系统阐述了 Matrix-Game 的研发历程、最新进展,基于对世界模型的深度思考,他提出了「下一帧状态生成和动作生成应该进行联合训练」的全新框架。此外,他首次公布了 Matrix-Game 3.5 的核心技术突破。Matrix-Game 3.5 计划于 2026 年 7 月正式发布,团队也将在近期发布包含更多技术细节的报告。
1. 定义世界模型:从「预测下一帧」到「状态-动作联合生成」
当前,全球世界模型赛道呈现技术路线快速分化的格局。尽管路线各异,一个共识正在浮现:世界模型已从纯学术命题演进为机器人、仿真、游戏与通用 AI 底层能力的竞争。在国内,昆仑万维的 Matrix-Game 是该赛道中起步最早、系统化程度最高的力量之一。

从技术落地来看,全球世界模型赛道的主流技术路线已逐渐清晰:先进行大规模双向 DiT 预训练,再通过 Self-Forcing 或 Causal Forcing 蒸馏为因果模型,配合 KVCache 实现流式推理,最终达到 25FPS 的实时交互水平,同时辅以记忆注入机制解决长时程一致性问题。
昆仑万维的 Matrix-Game 2.0 正是这一技术范式中首个开源的实现方案,而 Matrix-Game 3.0 则首次系统性地将记忆问题纳入开源解决方案。目前,Skywork 的 Matrix 团队正全力推进从 3.0 到 3.5 的升级迭代,核心目标在于攻克世界模型长时序生成中的记忆瓶颈,并实现 5B 参数模型在 720P 分辨率下的实时生成能力。

基于长期的研究,刘扬指出,「世界模型」一词在业内的定义混乱程度远超普遍认知——视频生成、3D 表征、交互式模拟器等不同方向的研究者所指并非同一对象。

他在演讲中提出了自己的理解框架:
理解当下状态:这超越纯视觉信息。一个真正的世界模型需要理解物体级别的物理属性——墙是否可穿越、水的温度等。纯视觉信号天然无法覆盖这些信息。
预测下一个状态:在充分理解当前状态的基础上,模型需对世界的后续演化做出推断。
将预测结果渲染呈现:使开发者和用户能够观测「下一帧」。
然而,团队的思考并未停留于此。Matrix Game 的实际训练揭示了一个更关键的结论:状态的预测与动作的生成应当联合训练,而非分而治之。
当我们把下一帧状态的生成和动作的生成进行联合训练,发现无论对状态理解还是状态和动作的预测,都会带来显著的提升。
这意味着他眼中更完整的世界模型,是对状态与动作的联合理解与联合生成——而非单向的观测世界、预测下一帧。根据具体应用场景,模型可以侧重输出状态(用于交互模拟器)或侧重输出动作(用于机器人控制)。这一统一框架是 Skywork 团队对世界模型认知的核心升级。
2. Matrix-Game 1.0-3.5:以游戏为切口,通向通用交互世界
自研发之初,团队选择游戏作为世界模型训练与交互验证的切入点。他认为,游戏天然是世界模型的完美载体。给定视觉输入和当前状态,接受玩家动作指令,输出下一帧——这一循环与世界模型的核心任务同构。同时,游戏引擎能够在可控条件下生成高质量数据,并精确记录视觉画面与对应动作,这是自然界视频数据无法替代的。
自 2024 年下半年启动研发以来,Matrix Game 在不到两年内完成了多次关键跨越:
2025 年 3 月,发布 Matrix-Game 1.0:成为最早公开的可交互世界模型之一。
2025 年 8 月,发布 Matrix-Game 2.0:业界首个实现分钟级实时长序列交互的世界模型,单卡 B100、720P@25FPS,从概念验证走向工业可部署,业界首个开源方案。Matrix-Game 2.0 获得了顶级学术团队的高度认可,DiT(Diffusion Transformer)作者、纽约大学助理教授谢赛宁团队基于 Matrix-Game 2.0 开源底座,发布了全球首个多人视频世界模型 Solaris,充分彰显了 Matrix-Game 2.0 在基础模型领域的技术影响力与开源生态价值。
2026 年 3 月,发布 Matrix-Game 3.0:5B 参数蒸馏模型实现 720P@40FPS 实时生成,补齐了世界模型公认的三大短板——记忆(记不住)、长时程(跑不久)、实时性(跑不动),跻身全球第一梯队。
Matrix Game-3.5:本次演讲首次系统披露 3.5 的核心技术突破。该版本的最大变化是从游戏场景向真实场景全面扩展,支持多风格动态切换与指令控制,并引入 NPC 交互能力。同时,本版本全新升级了长时记忆能力。
他用一句话概括了对未来的判断:「世界模型不应只是一个仿真器,而应是一个联合训练的统一模型——对状态与动作同时理解、同时生成,根据应用场景自由组合。」
3. 突破世界模型的数据瓶颈:构建无限数据引擎
刘扬在演讲中强调,数据是决定世界模型能力的下限。团队在实践中发现,传统数据采集方式存在三大痛点:人工采集成本高昂、实机采集耗时耗力、效率极低,无法满足大模型规模化需求。而世界模型需要全新的数据生成方式——能够无限生成带物理因果关系的数据,实现全自动、高效率、低成本。

为此,Skywork 团队构建了三条自动化数据生产管线,输出 Video + Pose + Action + Language 的高质量世界模型训练数据。截至目前,数据引擎已产出:
500 万+ 高质量视频切片
1 万+ 有效训练小时数
1200+ 覆盖游戏场景数
这一无限数据引擎的具体实现包括三个层面:
第一,基于 Unreal Engine 5 的自主探索管线。团队在 UE5 中搭建常见游戏场景,部署 RL Agent 进行自由探索,在探索过程中实现毫秒级同步采集,完整记录视觉画面、动作状态及一系列相关语义信息。
第二,跨游戏自动化控制与探索管线。覆盖《GTA V》《荒野大镖客 2》《赛博朋克 2077》等主流 3A 游戏,实现跨游戏的自动控制、自动探索、自动录制与自动标注。
第三,开放平台视频自动挖掘管线。从开放平台自动获取游戏视频,通过 VLM(视觉大模型)评分筛选高质量片段,自动完成镜头切分、过滤与结构化标注。
4. Matrix-Game 实践中的关键挑战与技术突破
本次演讲中花了大量篇幅阐述训练过程中遭遇的独特难题,这些细节在论文中通常不会呈现,也是最引发现场观众关注的部分,为业内对世界模型的训练提供了诸多实战经验参考。

挑战一:动作信号与视觉画面缺乏一一对应
大规模爬取游戏视频数据在理论上具有吸引力,但实际操作中发现:游戏画面向右上 45 度偏转,可能由鼠标、键盘或键鼠组合完成——同一视觉变化对应多种动作,模型学习时会陷入严重歧义。「爬数据本身并不能解决动作标注的问题。我们需要大量主动构建数据场景,明确告诉模型:在这种情况下,物理规则是什么。」
挑战二:模型理解动作指令,却不理解动作的物理后果
以《荒野大镖客》为例,模型很早就能理解「往前走」这一动作指令,但当游戏主角行至墙前,模型无法认知「墙不可穿越」,会直接生成穿墙画面。理解动作的含义与理解该动作在物理世界中产生的结果,是两项不同的任务。
为此,团队建立了一套主动数据标注体系,大量手工构建边界场景,将这些「昂贵但不可跳过」的物理知识注入训练数据。
挑战三:注入控制参数会破坏原始视频分布
从 1.0 到 3.0 版本,团队一直将动作控制信号作为额外参数注入模型(鼠标信号通过 Self-Attention 注入,键盘信号通过 Cross-Attention 注入)。这一直观做法带来了持续代价:每次加入参数都会破坏模型对原始视频分布的认知,需要大量额外训练来「修复」基础能力。
3.5 版本对此做出了根本性改变:不再引入额外参数,转而采用 PRoPE(Projective Position Encoding)机制,通过相机投影矩阵让模型直接感知相机相对位姿。这不仅降低了对原始视频分布的破坏,也极大增强了泛化能力。
挑战四:记忆检索方式决定长时程一致性的上限
早期版本的记忆机制是原样存储历史帧,推理时检索相关帧并拼接到上下文中。这一方法存在明显问题:占用大量上下文窗口、跨帧拼接时易出现画面冲突、难以灵活更新。
3.5 版本进行了架构层面的升级:将历史帧切分为三维坐标系下的空间块(spatial tokens),检索时按空间位置匹配,再重组成当前视角的记忆图。这一设计带来三重优势:画面一致性更高、相机轨迹保持更稳定,以及记忆可随时更新、替换、删除,灵活性大幅提升。
刘扬展望道,Skywork 团队的下一个目标是构建原生统一的世界模型框架——让状态理解与动作生成从串联走向联合,从分裂走向统一。以此为支点,团队将推动世界模型跨越游戏的边界,迈向机器人控制与物理世界交互的广阔疆域。他相信,世界模型终将成为通用人工智能的关键基石,重新定义智能体与物理世界的每一次交互。
在这条道路上,昆仑万维将持续深耕,步履不停。
来源:互联网



