智源大会｜Skywork首席科学家成宇：AI视听正在重构创作逻辑

6 月 12 日至 13 日，第八届智源大会在北京举行。作为人工智能领域最具影响力的学术盛会之一，本届大会汇聚了两位图灵奖得主——数字安全奠基人 Whitfield Diffie 与强化学习奠基人 Andrew Barto，以及 200 余位顶尖学者、40 余位 AI 企业 CEO 与首席科学家，围绕 Agent、世界模型、具身智能、多模态等前沿议题展开深入探讨。

13 日，昆仑万维旗下 Skywork 首席科学家成宇在多模态论坛上，以《从 SkyReels V4 到 Mureka V9：天工 AI 的 AIGC 多模态布局》为题发表主题演讲，系统阐述了昆仑万维在 AI 视频与 AI 音乐两大赛道的技术路径与产品战略。

2026 年昆仑万维发布了「4+3」AGI 战略，搭建全模态模型底座，依托「视频模型、音乐音频模型、世界模型、基座文本与多模态模型」四大 SOTA 技术底座，支撑「AI 短剧、AI 音乐、AI 游戏」三大 AI 原生娱乐经济体，探索 AI Native 平台经济全新模式。从 2023 年探索 6 个方向，到如今聚焦 4 个 SOTA 大模型底座、赋能 3 大 AI 原生内容经济体，昆仑万维已完成从技术单点突破到系统性 AI 平台化布局的战略演进，形成了独特的技术护城河。

1. SkyReels V4：重构视听创作逻辑

成宇提出，天工 AI 在视频领域的核心主张，不是在做一个生成工具，而是在推动一场视听创作逻辑的重构。「真正成熟的 AI 视频生成技术，是一套重构视听创作逻辑的全新范式，是下一代视听产业的核心基础设施。」

他从社会与产业两个维度拆解了 AI 视频的渗透路径：对普通用户而言，旅行纪念、家庭影像、工作汇报等场景的创作门槛大幅降低，AI 剧情短片已成为社交媒体上的新型「社交货币」，超六成用户每周主动观看 AI 视频内容；对产业创作者，AI 视频正在重构影视工业流程与创作者工作流，并成为电商、教育、广告等行业低成本内容生产的核心引擎。

过去一年多，SkyReels 团队致力于将「生成专业、好用、有感染力的视听内容」，变成可复现、可控制、可迭代的系统能力。SkyReels 历经 V1 开源、V2 引入扩散强迫框架、V3 支持多主体视频生成，到 2026 年 3 月 V4 正式登顶全球第一——在 Artificial Analysis 全球视频生成模型评测中，V4 拿下 Text to Video（With Audio）与 Image to Video（With Audio）双赛道全球第一，Text to Video（No Audio）赛道全球第二，超越 Veo 3.1、Sora 2 等主流模型，实现中国在该领域的技术引领。

在这一演进基础上，成宇重点介绍了 V4 的四大核心技术突破。

音画一体双流联合生成架构——终结音画不同步顽疾

传统视频生成普遍采用「先生成画面，再匹配音频」的分离式流程，视频和音频如同两个独立团队在黑暗中各自演奏，生成的结果始终存在「口型漂移、动作与音效错位」等难以回避的顽疾。SkyReels V4 自研双流 MMDiT 架构，视频分支与音频分支从任务开始就并肩工作，共享同一 MLLM 文本编码器，通过双向交叉注意力机制达到毫秒级音画精准对齐，从底层架构上实现端到端统一。

双流 MMDiT 架构示意图

全模态理解和精准控制——万物可参考，所想即所得

现实创作中，用户的需求往往是多模态的——给一张图、一段视频参考、一个运动轨迹，甚至要擦除某个多余人物、替换主体服装颜色。而现有工具通常只能覆盖其中一部分，要么能做多模态参考却没有音频输出，要么能做编辑却不支持复杂参考。SkyReels V4 将生成、编辑、处理等任务整合在统一框架里，提出通道拼接与时序拼接相结合的统一范式，支持多帧参考、多图片参考、运动参考、视频编辑等多种控制方式，大幅减少用户在不同工具间来回切换的繁琐体验。

全模态强化学习体系——从「像素工匠」进化为「创作艺术家」

传统视频生成模型存在一个核心痛点：极其注重画面中每一帧的清晰度和纹理细节，却经常忽略整段视频的逻辑连贯性——「像素完美，逻辑混乱」。成宇用一个直观的例子说明：当提示词是「一个演员在雨中奔跑，情绪从紧张到释然，最后停下抬头微笑」，过去的模型大概率会出现前后情绪不连贯、动作跳跃等明显不合逻辑的问题。

全模态强化前后 GSP 评比结果

为了解决这个问题，一方面搭建全模态语义 Reward 模型，以「上帝视角」扮演「首席监制」，覆盖文生视频 (T2V)、图生视频 (I2V)、视频编辑与参考、音视频对齐全场景，为生成提供全局精准的实时反馈，全方位优化生成效果；另一方面采用阶梯式课程强化学习路径，从分辨率与时长、任务复杂度、数据难度三个维度，让模型由简入繁掌握复杂能力。通过这套体系，V4 实现了跨任务泛化能力的显著提升，让 AI 真正开始「理解」整个视频的逻辑与叙事结构。

突破四：攻克电影级画质与高效生成的平衡难题——1080p、15 秒量产专业级视频

高分辨率长视频生成一直是行业计算瓶颈：直接扩散生成 1080p、15 秒的多镜头视频，会导致难以承受的显存和时间成本。SkyReels V4 采用「低分辨率全序列+高分辨率关键帧」联合生成策略，模型先快速生成低分辨率完整视频和高分辨率关键帧，再通过专用超分辨率和帧插值模块重构高质量视频。结合 VSA 稀疏注意力机制大幅降低高分辨率长视频带来的二次方计算复杂度，将生成、修复、编辑三大功能整合进单一框架，稳定输出 1080p、32FPS 影院级画质，视频时长达 15 秒，实现专业级 AI 视频的高效量产。

技术原理：联合生成策略

成宇强调，这四大突破不是孤立的单点技术优化，而是一套系统性解决方案的有机组合：双流 MMDiT 从架构上解决音画同步，统一多模态控制框架让创作意图得到精准响应，全模态强化学习让视频不仅有像素更要有逻辑，高效联合生成策略让高质量创作不再被算力卡脖子。四条技术路径相互协同，共同推动视频生成从「拼画面」跨越到「讲故事」的新阶段。

成宇表示，SkyReels 的目标不是自己做内容，而是「去中心化赋能」——将核心能力嵌入到每一个有需求的场景中，开放文生视频、图生视频、视频编辑、音画生成等全链路 API，赋能短剧平台、电商平台、在线教育、影视行业和广告行业等不同客户群体。

昆仑万维已经陆续发布并开源多个 SkyReels 模型，包括 SkyReels V1、SkyReels V2、SkyReels V3、SkyReels V4，以及 SkyReels A1、SkyReels A2 和 SkyReels A3。欢迎开源社区、AI 机构组织、科研学者等 AI 从业者和开发者下载使用 SkyReels 系列模型：https://huggingface.co/Skywork。

2. Mureka V9：把好听做成一种系统能力

Mureka 的前身是 SkyMusic，自 2024 年 2 月内测起步，先后经历了 SkyMusic 1.0/2.0、2024 年 8 月以 Mureka 4.0 独立上线、2025 年 7 月 Mureka7.0 引入 MusiCoT 思维链技术建立闭环进化轨道，到 2026 年 1 月 V8 登顶 Artificial Analysis 人声与器乐双赛道全球第一，再到 2026 年 3 月 Mureka V9 在精准控制、录音室级混音、生成多样性等方面实现全面升级。Mureka 团队一直在做同一件事：把好听变成一种系统能力。

成宇介绍，Mureka V9 的升级重点聚焦于「创作意图的可控表达」——不仅生成得更快、更清晰，更能准确理解创作者在歌词段落中的具体表达诉求。

MusiCoT 音乐思维链：给 AI 装上「全局视野」。传统 AI 音乐模型的生成方式是「下一个 Token 预测」——模型写完第一个音符，根据概率猜第二个，一路猜到结尾，如同盲人摸象、走一步看一步，前奏惊艳，一到副歌就结构崩塌；Mureka 引入的 MusiCoT 技术，让 AI 在写第一个音符之前先在脑海中画好「全局建筑图纸」：规划歌词段落在哪里切分、每段歌词的语义重心落在哪个词、音乐结构如何对应、声音表达如何配合情绪走向，将音乐生成从「逐个音符猜」升级为「先规划后执行」的推理式创作。

五项核心升级叠加，实现「生成即可发布」。段落级文本控制让歌词的情绪重心能准确落在目标位置，不再是「唱出来了」而是「在对的段落被准确表达了」；混音与音质实现人声和伴奏清晰分离，接近母带级别；人声表达减少莫名其妙的飙高音和杂音，听起来像真人在唱；推理链路优化后生成效率大幅提升，企业不用反复抽卡；同一创作指令下能输出多种差异化版本，避免「生成五首差不多的歌」。Mureka 的产品矩阵围绕「意图→生成→编辑→二创→分发→表达」，形成完整链路构建。

在横向评测中，Mureka V9 在音乐旋律性（7.25）、音乐表现力（6.89）、编配编曲（6.98）三个维度均位列第一，在精准控制维度（7.24）排名第二，全面对标国际顶级模型。

此外，成宇还介绍了 Mureka 两大特色产品功能，Mureka Studio 及 Remix 功能。Mureka Studio是一款 AI-native DAW（数字音频工作站），支持多轨编辑、音频修复、人声/节奏/合成器分轨提取，将 AI 生成能力直接嵌入专业制作流程。Remix 功能打通消费、版本化与传播的循环，用户在浏览内容时可一键对已有歌曲进行风格切换、歌词替换、旋律改写等操作，生成新版本后继续参与社交传播，形成内容的裂变增长飞轮。

这些产品能力的落地，让 Mureka 率先通过了「生产可用门槛」。北美增长型 AI 音乐公司 Sondo 从 Suno 灰产全量切换至 Mureka API 后，合作体量增长超 70%，音乐核心业务翻倍。从技术指标到商业验证，Mureka 已证明自身不仅是全球顶尖的 AI 音乐技术平台，更是成熟的商业化产品。

3. 结语

演讲最后，成宇以一句话收尾：「我们希望用最顶尖的技术，打破创作的门槛，让每一个创意都能被轻松实现，让每一个有表达欲的人都能拥有属于自己的视听话语权。」

这也是昆仑万维对「AI 视听时代技术灯塔」这一品牌愿景的注脚——SkyReels 要做的是下一代视听产业的核心基础设施，Mureka 要做的是新一代音乐创意表达的底层操作系统，二者共同构成昆仑万维在 AIGC 多模态赛道上最坚实的技术底座。从技术底座到原生应用，从视频到音乐再到游戏世界，昆仑万维正以「4+3」战略为锚点，推动 AI 在全场景内容创作的深度变革。

来源：互联网

最新文章