AIGC 与音乐娱乐业的碰撞与火花，腾讯音乐携手腾讯云赋能行业

9 月 8 日，2023 腾讯全球数字生态大会互联网 AIGC 应用专场举行，基于 AIGC 在各行各业的落地实践，腾讯云正式发布了腾讯云智能 AIGC 方案全景图，依托图像生产、视频生成、文本生成、语音生成的四大生成能力，为千行百业提供 AI 绘画、人像变化、虚拟偶像制作、AI 作曲等 10 多个标准化应用产品。

现场，腾讯音乐天琴实验室高级总监吴斌博士带来《AIGC 在娱乐行业中的应用与发展》主题分享，他认为：AIGC 的新契机在于大语言模型的发展以及 Diffusion 视觉生成模型的突破，腾讯音乐目前已经在这两项技术上有成熟、丰富的应用实践，并在生产效率、效益提升方面起到了积极推动的作用。此外，腾讯音乐自研的 MUSELight 大模型加速技术，驱动其大语言模型、视觉 AIGC 的加速能力均处于行业领先地位，全方位地提升了用户的视听体验，并能够为行业企业提供更全面、更精准、更有效的支持。

腾讯音乐天琴实验室高级总监吴斌

大语言模型应用落地，腾讯音乐促进用户之间的社交与关心

吴斌介绍，在大语言模型的赋能下，音乐可以促进用户之间的社交与关心。例如全民 K 歌不仅可以分析用户唱歌节奏、音准、情感等唱功能力，还可生成专业的评价，在用户作品下面以一个官方的 AI 助手方式进行评论。此外，全民 K 歌还可实现真诚地「夸赞」用户，例如「唱到 XXX 这一句时音色非常优美」「整体节奏感非常好」，同时也会非常客观地提出一些改进的意见，帮助用户更好练习唱歌。

AI 助手点评的能力为整个大盘留存率带来显著的提升，分析其原因，吴斌认为是：AIGC 能够带动用户跟用户之间社交的更进一步。延续这个思路，后续推出了「夸夸礼物」能力，支持用户为彼此的作品进行夸赞礼物赠送，显著地提升了收入。

自研 MUSE AI 视觉模型，助力音乐制作多元化展示

腾讯音乐通过对音乐音频、歌词及娱乐场景的理解，自主研发了 MUSE AI 视觉生成的算法以及 MUSE UI 视觉生成工具，极大降低了应用门槛，形成一个非常高效的工作流。设计师可以非常低门槛地找到自己想要的模型配置对应的效果，并可以一键进行模型的加速，生成 API 文档，给到工程团队进行大规模的部署。此外，由于 MUSE UI 是 web 服务，所以能够非常完整地整合行业里面大量优秀的模型，包括五千多底座模型，超过一万的 LoRA。

MUSE UI 解决了很多实际应用中的痛点。例如，设计师或者非技术人员非常难去写一个完整的、效果好的 prompt。但是通过应用大语言模型进行 prompt 自动扩写之后，这时候可以给到非常多元化效果的启发。更进一步的，MUSE UI 能根据 prompt 和参考图进行底座模型、LoRA 的检索搭配，真正低门槛的给到多样化设计的思路和理念，让设计师继续往前探索。

吴斌介绍，MUSE AI 已经在诸多领域进行了落地应用。

首先在音乐曲库里，很多音乐人在发行歌曲的时候难以承受专辑封面的高昂设计费用，虽然可以发行，但是在 APP 没有封面，难以被分发。MUSE AI 可以很自然地为这些海量歌曲生成封面，并针对不符合尺寸的封面也可以进行无缝的扩展。此外，MUSE AI 也会给 UGC 歌单自动生成一个合适的封面，同时也给音乐人在发行阶段提供了专辑封面制作的 AI 工具。

在音乐分享方面，借助 MUSE AI，QQ 音乐、全民 K 歌等都实现了更精准、丰富的年终盘点，例如 2022 年底给每个 QQ 音乐用户生成了专属的年度歌曲画报，全民 K 歌也可以根据用户的嗓音进行分析生成画像。另外 MUSE AI 在 QQ 音乐上面落地了一个行业领先的歌词海报的能力，基于音乐本身以及歌词的特点，自动生成高品质的可供分享的音乐视觉作品。

在音乐视频化方面，可以支持基于歌词和音乐生成的静态图片之后，再组合运镜，以及 MUSE AI 自研的图片动态化技术进行呈现，还可以针对传统 MV 进行风格化创作。在直播领域，MUSE AI 赋能腾讯音乐在行业独创原创「神笔马良」的能力，让用户跟主播互动过程中，通过文字非常轻易地创作一个全新的、个性化的礼物赠送给主播，带来开盲盒的体验，并催生了一些非常值得讨论的直播话题。在教育领域，MUSE AI 也参与了腾讯 AI 编程第一课的合作，让学龄儿童随手画几笔，就可以生成非常精美的图片。

自研 MUSELight 大模型加速技术，为行业应用降本增效

大模型的部署成本非常高昂，于是腾讯音乐自研了一套行业领先的 MUSELight 的大模型加速技术，通过算子级别优化，定制化算子及 OP 合并；访存计算量优化，KV-Cache 减少计算量；特殊核心算法层改进，显著降低显存并提高计算速度；并进行高性能硬件编程优化。

MUSELight 为 ChatGLM 加速的 lyraChatGLM 获得了 ChatGLM 的认可，在该平台置顶推荐。同时 MUSELight 也在 HuggingFace 进行了多项大模型加速版本发布。此外，MUSELight 大模型加速技术在腾讯内部产品上有所应用，例如为微信键盘加速后达到了上线耗时要求，并且降低了大量成本。接下来 MUSELight 也会跟腾讯云进行合作，对行业进行赋能。

最后，吴斌对 AIGC 的未来发展进行了设想与展望，他认为，大语言模型是一个非常强大、非常通用的能力，它潜在可以把所有人类知识进行理解和掌控，包括万物规律、人为定义的规则框架、人情世故等；Diffusion 则是一项能够生成真假难分视觉内容的能力。Diffusion 在大语言模型技术的驱动下，将在未来形成生成一个非常真实的虚拟世界能力。

吴斌表示，腾讯音乐天琴实验室正在做相关技术探索，例如虚拟人，可以根据不同的人设生成不同的精美形象图片，以及语言的陪伴互动。但这还不够，他希望未来虚拟世界可以从二维升到三维，从文本和视觉拓展到听觉，这是非常值得突破的下一个里程碑。现场吴斌也展示了天琴实验室最新的研究进展，在没有 3D 及参考视频的情况下，基于 MUSE AI 技术从零生成的一段虚拟人视频，视频中虚拟人缓缓露出惊艳的笑容，发丝随风吹动，远景还有行人走动及树叶摆动，并且带有背景声音，效果非常逼真，引发现场观众的惊叹与掌声。吴斌表示，腾讯音乐将持续深入 AIGC 前沿突破，创造音乐娱乐无限可能。

来源：懒人科技网

最新文章