
6 月 12 日至 13 日,第八届智源大会在北京举行。作为人工智能领域最具影响力的学术盛会之一,本届大会汇聚了两位图灵奖得主——数字安全奠基人 Whitfield Diffie 与强化学习奠基人 Andrew Barto,以及 200 余位顶尖学者、40 余位 AI 企业 CEO 与首席科学家,围绕 Agent、世界模型、具身智能、多模态等前沿议题展开深入探讨。
6 月 12 日至 13 日,第八届智源大会在北京举行。作为人工智能领域最具影响力的学术盛会之一,本届大会汇聚了两位图灵奖得主——数字安全奠基人 Whitfield Diffie 与强化学习奠基人 Andrew Barto,以及 200 余位顶尖学者、40 余位 AI 企业 CEO 与首席科学家,围绕 Agent、世界模型、具身智能、多模态等前沿议题展开深入探讨。

13 日,昆仑万维旗下 Skywork 首席科学家成宇在多模态论坛上,以《从 SkyReels V4 到 Mureka V9:天工 AI 的 AIGC 多模态布局》为题发表主题演讲,系统阐述了昆仑万维在 AI 视频与 AI 音乐两大赛道的技术路径与产品战略。
2026 年昆仑万维发布了「4+3」AGI 战略,搭建全模态模型底座,依托「视频模型、音乐音频模型、世界模型、基座文本与多模态模型」四大 SOTA 技术底座,支撑「AI 短剧、AI 音乐、AI 游戏」三大 AI 原生娱乐经济体,探索 AI Native 平台经济全新模式。从 2023 年探索 6 个方向,到如今聚焦 4 个 SOTA 大模型底座、赋能 3 大 AI 原生内容经济体,昆仑万维已完成从技术单点突破到系统性 AI 平台化布局的战略演进,形成了独特的技术护城河。
1. SkyReels V4:重构视听创作逻辑
成宇提出,天工 AI 在视频领域的核心主张,不是在做一个生成工具,而是在推动一场视听创作逻辑的重构。「真正成熟的 AI 视频生成技术,是一套重构视听创作逻辑的全新范式,是下一代视听产业的核心基础设施。」
他从社会与产业两个维度拆解了 AI 视频的渗透路径:对普通用户而言,旅行纪念、家庭影像、工作汇报等场景的创作门槛大幅降低,AI 剧情短片已成为社交媒体上的新型「社交货币」,超六成用户每周主动观看 AI 视频内容;对产业创作者,AI 视频正在重构影视工业流程与创作者工作流,并成为电商、教育、广告等行业低成本内容生产的核心引擎。
过去一年多,SkyReels 团队致力于将「生成专业、好用、有感染力的视听内容」,变成可复现、可控制、可迭代的系统能力。SkyReels 历经 V1 开源、V2 引入扩散强迫框架、V3 支持多主体视频生成,到 2026 年 3 月 V4 正式登顶全球第一——在 Artificial Analysis 全球视频生成模型评测中,V4 拿下 Text to Video(With Audio)与 Image to Video(With Audio)双赛道全球第一,Text to Video(No Audio)赛道全球第二,超越 Veo 3.1、Sora 2 等主流模型,实现中国在该领域的技术引领。
在这一演进基础上,成宇重点介绍了 V4 的四大核心技术突破。
音画一体双流联合生成架构——终结音画不同步顽疾
传统视频生成普遍采用「先生成画面,再匹配音频」的分离式流程,视频和音频如同两个独立团队在黑暗中各自演奏,生成的结果始终存在「口型漂移、动作与音效错位」等难以回避的顽疾。SkyReels V4 自研双流 MMDiT 架构,视频分支与音频分支从任务开始就并肩工作,共享同一 MLLM 文本编码器,通过双向交叉注意力机制达到毫秒级音画精准对齐,从底层架构上实现端到端统一。

双流 MMDiT 架构示意图
全模态理解和精准控制——万物可参考,所想即所得
现实创作中,用户的需求往往是多模态的——给一张图、一段视频参考、一个运动轨迹,甚至要擦除某个多余人物、替换主体服装颜色。而现有工具通常只能覆盖其中一部分,要么能做多模态参考却没有音频输出,要么能做编辑却不支持复杂参考。SkyReels V4 将生成、编辑、处理等任务整合在统一框架里,提出通道拼接与时序拼接相结合的统一范式,支持多帧参考、多图片参考、运动参考、视频编辑等多种控制方式,大幅减少用户在不同工具间来回切换的繁琐体验。
全模态强化学习体系——从「像素工匠」进化为「创作艺术家」
传统视频生成模型存在一个核心痛点:极其注重画面中每一帧的清晰度和纹理细节,却经常忽略整段视频的逻辑连贯性——「像素完美,逻辑混乱」。成宇用一个直观的例子说明:当提示词是「一个演员在雨中奔跑,情绪从紧张到释然,最后停下抬头微笑」,过去的模型大概率会出现前后情绪不连贯、动作跳跃等明显不合逻辑的问题。

全模态强化前后 GSP 评比结果
为了解决这个问题,一方面搭建全模态语义 Reward 模型,以「上帝视角」扮演「首席监制」,覆盖文生视频 (T2V)、图生视频 (I2V)、视频编辑与参考、音视频对齐全场景,为生成提供全局精准的实时反馈,全方位优化生成效果;另一方面采用阶梯式课程强化学习路径,从分辨率与时长、任务复杂度、数据难度三个维度,让模型由简入繁掌握复杂能力。通过这套体系,V4 实现了跨任务泛化能力的显著提升,让 AI 真正开始「理解」整个视频的逻辑与叙事结构。
突破四:攻克电影级画质与高效生成的平衡难题——1080p、15 秒量产专业级视频
高分辨率长视频生成一直是行业计算瓶颈:直接扩散生成 1080p、15 秒的多镜头视频,会导致难以承受的显存和时间成本。SkyReels V4 采用「低分辨率全序列+高分辨率关键帧」联合生成策略,模型先快速生成低分辨率完整视频和高分辨率关键帧,再通过专用超分辨率和帧插值模块重构高质量视频。结合 VSA 稀疏注意力机制大幅降低高分辨率长视频带来的二次方计算复杂度,将生成、修复、编辑三大功能整合进单一框架,稳定输出 1080p、32FPS 影院级画质,视频时长达 15 秒,实现专业级 AI 视频的高效量产。

技术原理:联合生成策略
成宇强调,这四大突破不是孤立的单点技术优化,而是一套系统性解决方案的有机组合:双流 MMDiT 从架构上解决音画同步,统一多模态控制框架让创作意图得到精准响应,全模态强化学习让视频不仅有像素更要有逻辑,高效联合生成策略让高质量创作不再被算力卡脖子。四条技术路径相互协同,共同推动视频生成从「拼画面」跨越到「讲故事」的新阶段。
成宇表示,SkyReels 的目标不是自己做内容,而是「去中心化赋能」——将核心能力嵌入到每一个有需求的场景中,开放文生视频、图生视频、视频编辑、音画生成等全链路 API,赋能短剧平台、电商平台、在线教育、影视行业和广告行业等不同客户群体。
昆仑万维已经陆续发布并开源多个 SkyReels 模型,包括 SkyReels V1、SkyReels V2、SkyReels V3、SkyReels V4,以及 SkyReels A1、SkyReels A2 和 SkyReels A3。欢迎开源社区、AI 机构组织、科研学者等 AI 从业者和开发者下载使用 SkyReels 系列模型:https://huggingface.co/Skywork。
2. Mureka V9:把好听做成一种系统能力
Mureka 的前身是 SkyMusic,自 2024 年 2 月内测起步,先后经历了 SkyMusic 1.0/2.0、2024 年 8 月以 Mureka 4.0 独立上线、2025 年 7 月 Mureka7.0 引入 MusiCoT 思维链技术建立闭环进化轨道,到 2026 年 1 月 V8 登顶 Artificial Analysis 人声与器乐双赛道全球第一,再到 2026 年 3 月 Mureka V9 在精准控制、录音室级混音、生成多样性等方面实现全面升级。Mureka 团队一直在做同一件事:把好听变成一种系统能力。

成宇介绍,Mureka V9 的升级重点聚焦于「创作意图的可控表达」——不仅生成得更快、更清晰,更能准确理解创作者在歌词段落中的具体表达诉求。
MusiCoT 音乐思维链:给 AI 装上「全局视野」。传统 AI 音乐模型的生成方式是「下一个 Token 预测」——模型写完第一个音符,根据概率猜第二个,一路猜到结尾,如同盲人摸象、走一步看一步,前奏惊艳,一到副歌就结构崩塌;Mureka 引入的 MusiCoT 技术,让 AI 在写第一个音符之前先在脑海中画好「全局建筑图纸」:规划歌词段落在哪里切分、每段歌词的语义重心落在哪个词、音乐结构如何对应、声音表达如何配合情绪走向,将音乐生成从「逐个音符猜」升级为「先规划后执行」的推理式创作。
五项核心升级叠加,实现「生成即可发布」。段落级文本控制让歌词的情绪重心能准确落在目标位置,不再是「唱出来了」而是「在对的段落被准确表达了」;混音与音质实现人声和伴奏清晰分离,接近母带级别;人声表达减少莫名其妙的飙高音和杂音,听起来像真人在唱;推理链路优化后生成效率大幅提升,企业不用反复抽卡;同一创作指令下能输出多种差异化版本,避免「生成五首差不多的歌」。Mureka 的产品矩阵围绕「意图→生成→编辑→二创→分发→表达」,形成完整链路构建。
在横向评测中,Mureka V9 在音乐旋律性(7.25)、音乐表现力(6.89)、编配编曲(6.98)三个维度均位列第一,在精准控制维度(7.24)排名第二,全面对标国际顶级模型。
此外,成宇还介绍了 Mureka 两大特色产品功能,Mureka Studio 及 Remix 功能。Mureka Studio是一款 AI-native DAW(数字音频工作站),支持多轨编辑、音频修复、人声/节奏/合成器分轨提取,将 AI 生成能力直接嵌入专业制作流程。Remix 功能打通消费、版本化与传播的循环,用户在浏览内容时可一键对已有歌曲进行风格切换、歌词替换、旋律改写等操作,生成新版本后继续参与社交传播,形成内容的裂变增长飞轮。
这些产品能力的落地,让 Mureka 率先通过了「生产可用门槛」。北美增长型 AI 音乐公司 Sondo 从 Suno 灰产全量切换至 Mureka API 后,合作体量增长超 70%,音乐核心业务翻倍。从技术指标到商业验证,Mureka 已证明自身不仅是全球顶尖的 AI 音乐技术平台,更是成熟的商业化产品。
3. 结语
演讲最后,成宇以一句话收尾:「我们希望用最顶尖的技术,打破创作的门槛,让每一个创意都能被轻松实现,让每一个有表达欲的人都能拥有属于自己的视听话语权。」
这也是昆仑万维对「AI 视听时代技术灯塔」这一品牌愿景的注脚——SkyReels 要做的是下一代视听产业的核心基础设施,Mureka 要做的是新一代音乐创意表达的底层操作系统,二者共同构成昆仑万维在 AIGC 多模态赛道上最坚实的技术底座。从技术底座到原生应用,从视频到音乐再到游戏世界,昆仑万维正以「4+3」战略为锚点,推动 AI 在全场景内容创作的深度变革。
来源:互联网



