百度商业视频生成模型 MuseSteamer 来了：音画一步到位，出厂自带 bgm！

在 7 月 2 日举办的百度 AI DAY 开放日上，百度商业研发团队正式推出自研视频生成模型 MuseSteamer。该模型通过突破性技术创新，为全球视频创作者带来高效、专业的智能化解决方案。据了解，MuseSteamer 提供了 Turbo 版、Lite 版、Pro 版及全系列有声版模型矩阵，通过差异化设计满足各类用户不同创作需求。

「所思即所得」，重新定义叙事艺术边界

百度商业体系商业研发总经理刘林在会上详细介绍了 MuseSteamer 的核心突破。他指出，指令理解与遵循是多模态大模型最基础也是最有挑战的素质，MuseSteamer 具备极致遵循力，可以真正帮助创作者实现「所思即所得」的创作自由。

在 MuseSteamer 生成的古装武侠视频中，一位头戴斗笠、身着青衫的侠客正与巨型怪物展开惊心动魄的搏斗。该技术通过多模态大模型实现高度逼真的动态内容创作：斗笠下，侠客眉头紧锁，目光锐利，即使在特写镜头和复杂光影条件下，面部微表情依然自然生动。同时，视频还展现了 MuseSteamer 强大的运镜能力：以俯拍镜头展现庞大怪物的压迫感，随即切换到侠客第一视角的仰拍，最后以环绕运镜呈现双方交锋的精彩瞬间。这些专业级镜头语言的自动化实现，让普通用户也能轻松获得电影级的叙事张力。

从完整视频可以看出，MuseSteamer 能够以导演拍摄的角度，对视频基本剧情、画面形成判断，从侠客拔剑的起手式，到怪物咆哮时震落的碎石特效，不仅每个动作都严格遵循武侠风格的打斗轨迹，更通过快慢镜头的交替运用，将这场生死对决的紧张氛围渲染得淋漓尽致，展现出 AI 视频生成在专业影视创作中的巨大潜力。

刘林指出，在 AI 内容创作领域，视频时长与画质的突破往往意味着创作自由度的质变。以 MuseSteamer 生成的短片《她总在三点一刻出现》为例，该技术通过 10 秒超长镜头和 1080P 高清画质，实现了电影级的艺术表现力。

视频以极具张力的镜头语言展开：固定机位首先捕捉男主角在街头徘徊张望的身影，随后镜头自然转向女主角，细腻呈现她喝咖啡的动作，蒸汽氤氲中睫毛的颤动，完整记录「她总点一样的咖啡」的细节。整个过程中，王家卫式的色彩美学贯穿始终，暗红色调与冷色阴影形成鲜明对比。而 1080P 的高清画质则刻画出从咖啡热气到衣物褶皱的每一个细节，将专业运镜、光影控制和叙事张力完美融合，为创作者提供了更广阔的表达空间。

与市场上多数需要后期配音的解决方案不同，MuseSteamer 能够同步生成画面、音效和人物台词，实现声音与画面的自然生成，显著提升了视频作品的完整性和艺术表现力，是全球首个实现中文音视频一体化生成的视频模型。

以一段沙漠越野主题的短片为例，系统不仅能呈现越野车在沙漠中疾速漂移的画面，更能智能生成与之相匹配的立体声效：发动机低沉的轰鸣声随着飞扬的沙尘变化而起伏，轮胎与沙地摩擦的声响随转弯的角度而变化，极致遵循物理运动规律。声音元素与画面动作相得益彰，为创作者带来真正「所见即所感」的音视频一体化体验。

数据、算法、审美多重突破，持续霸榜 VBench-I2V 图生视频榜首

在技术层面，MuseSteamer 的亮点表现源于百度在数据、算法、审美等方面的深耕。刘林介绍，该模型构建了亿级规模中文多模态数据库，通过「筛选－净化－配比」三级优化体系，实现业界领先的文本指令与视觉元素的语义对齐精度。在算法架构上，MuseSteamer 采用精细化结构设计，支持中文文本、参考图像等多模态条件输入，确保对画面细节、主体运动轨迹等要素的遵循。此外，模型可生成分辨率高达 1080P 高清视频，呈现出电影级流畅转场与逼真的物理运动规律。

在音画呈现上，MuseSteamer 构建了一套完整的有声视频生成能力，围绕「谁在说、怎么说、在什么环境下说」三个关键问题，通过多人自动化对齐编排、音视对齐 Refiner，实现视觉信息、高还原度的人声与环境音自动生成能力。这些技术创新共同构成了 MuseSteamer 的核心竞争力。在海外权威视频生成评测榜单 VBench Leaderboard 图生视频榜单中，MuseSteamer 视频生成模型以总分 89.38% 的成绩，登上 VBench-I2V 图生视频全球榜首。

伴随 MuseSteamer 的发布，全新 AI 视频创作平台——「绘想」也同步上线，为创作者提供全新视频生成体验。即日起，用户可通过 PC 端搜索「MuseSteamer」或「绘想」免费体验 Turbo 版功能，探索 AI 视频创作的无限可能。为激发创作热情，百度将在7 月 2 日—8 月 3 日期间举办「绘想·跨次元捏合」AI 视频创作大赛。参赛者只需上传一张图片，即可借助 MuseSteamer 视频生成模型的强大能力生成富有创意的动态视频作品。

随着技术的突破，创意的边界也将进一步拓展。MuseSteamer 视频生成模型让专业级视频创作变为大众可及的能力，让每个人都能成为自己故事的导演，实现「所思即所得」的创意自由。展望未来，百度将持续推进 AIGC 技术创新，让技术真正服务于每个人的创意表达。

来源：互联网

最新文章