高度还原!火山语音 MegaTTS 算法秒级别生成你的专属 AI 声音!

摘要

火山引擎声音复刻 2.0 采用了全新自研语音算法 MegaTTS, 经专业评测, 声音复刻 2.0 版本与真人录音复刻的平均相似度已高达 97.5%, 不但超过一半的评测人员认为复刻合成效果与真并无任何差异, 而且在金融客服、视频配音、智能语音助手、虚拟数字人等相关场景均可适用!

仅仅需要五秒钟就能复刻你的声音?

快来登录火山引擎官网在语音技术下的开放产品体验中心

体验火山引擎声音复刻 2.0 版本的惊艳效果吧!

火山引擎声音复刻 2.0 采用了全新自研语音算法 MegaTTS, 经专业评测, 声音复刻 2.0 版本与真人录音复刻的平均相似度已高达 97.5%, 不但超过一半的评测人员认为复刻合成效果与真并无任何差异, 而且在金融客服、视频配音、智能语音助手、虚拟数字人等相关场景均可适用!

五秒钟复刻:极速获取高品质 AI 专属音色

传统技术下, 通常声音复刻往往需要用户录制 20-100 句话, 并训练几分钟甚至几小时后才可就绪, 这样的「复刻门槛」往往让人缺乏耐心且质量也不尽如人意。

对此, 火山引擎音色复刻 2.0 版本则在全面提升效果品质的同时, 还攻克了录制量级及训练时长这两大难关。

其核心算法 MegaTTS只需要五秒钟的数据量, 就能对各种风格、口音以及声学环境下的音色进行克隆。同时 MegaTTS 算法具有大模型特有的 In-context-learning 能力, 无需对用户音色进行 Fine-tuning 就能实现复刻。区别于传统的音色复刻模型,MegaTTS 可以免除训练时长, 即时极速复刻。

高度还原:平均相似度高达 97.5%

此外 MegaTTS 算法还设计了基于注意力机制的细粒度无限长音色提示模块, 以及基于大语言模型的韵律提示模块, 在音色与韵律上都能够极高还原用户输入音频的发声特点。

在真实的评测和用户体验中, 不但还原之后的平均相似度已高达 97.5%。

仔细听, 即使是环境音也可以被完美重现。

值得提及的是, 火山引擎声音复刻 2.0 版本为客户了提供多种接入方式, 并支持云端接入和私有化集成。无论是在金融客服、视频配音、智能语音助手、虚拟数字人还是其他语音应用场景中都能快速接入。

语音大模型创新范式  MegaTTS 将声音复刻带入新境界

火山引擎声音复刻 2.0 版本采用了火山语音团队全新自研语音算法 MegaTTS, 新一代算法仅需要用户秒级别的音频数据即可即时完成对用户音色、说话风格、口音和声学环境音的复刻。彻底攻克了传统声音复刻对录音数据量的依赖, 超低门槛的数据输入即可获得超高品质的 AI 专属音色。

图 1:MegaTTS 架构图

实验结果表明, 当数据量在 10 秒到 5 分钟之间时,MegaTTS 不仅可以在任意来源的新用户的短提示下合成保同语音, 而且始终优于基于 Fine-tuning 的基线方法 (Portaspeech 2)。

此外得益于音色和韵律独立建模的方式, 火山语音的韵律语言模型可以以细粒度和可控的方式将各种说话风格转移到目标音色, 甚至可以模仿 Rap。未来这些功能也会陆续上线, 为更多用户提供创作空间。

一直以来, 火山语音团队不断将打磨多年的语音技术能力面向市场并通过火山引擎开放给外部企业, 已覆盖汽车、金融、有声阅读、视频配音等众多应用场景, 技术能力已成功应用到抖音、剪映、番茄小说等多款国民级产品上, 并助力多家行业头部企业实现 AI 语音能力的应用与拓展。未来火山语音还将不断探索前沿科技与业务场景的高效结合, 持续为用户体验和业务增长注入创新势能, 以实现更大价值。

来源:品玩

最新文章

极客公园

用极客视角,追踪你不可错过的科技圈.

极客之选

新鲜、有趣的硬件产品,第一时间为你呈现。

张鹏科技商业观察

聊科技,谈商业。