奇富科技语音论文入选国际顶会 INTERSPEECH 2023

近日，奇富科技机器人团队论文《Eden-TTS：一种简单高效的非自回归「端到端可微分」神经网络的语音合成架构》（Eden-TTS: A Simple and Efficient Parallel Text-to-speech Architecture with Collaborative Duration-alignment Learning）被全球语音与声学顶级会议 INTERSPEECH 2023 接收。此次自研成果入选，代表着国际学术界对奇富科技在语音信号领域研究实力的极高认可。

INTERSPEECH 是由国际语音通讯协会（International Speech Communication Association, ISCA）创办的语音信号处理领域顶级旗舰国际会议，是全球最大的综合性语音信号处理盛会，在国际上享有盛誉并具有广泛的学术影响力。历届 INTERSPEECH 会议都备受全球各地语音语言领域人士的广泛关注。

TTS 技术当前主要应用于电销机器人、视频面审机器人、智能客服等人机交互场景和语音合成场景，它能把文本内容快速地转化为高质量、流畅自然的语音，从而实现更加智能、更有人性化的人机交互。文本音素和音频帧之间的对齐（alignment）学习是非自归 TTS 模型的最关键技术之一。现有的非自回归语音合成模型大多数需要引入外部 alignment 信息作为学习目标。在实际应用场景中，文本与语音的 alignment 是很难准确获得的，甚至是不能获得的，这极大地限制了此类方法的应用。另外，也有少数无需外部 alignment 的方法提出，然而这些方法大多不是端到端可微分的神经网络模型，存在构建困难，训练过程复杂，训练效率低等问题。

奇富科技的论文研究成果为需要文本转语音的应用场景提供了创新的解决方案，提出了一种端到端可微的非自回归神经网络语音合成模型架构。基于文本音素时长与 alignment 的密切关系，论文提出了一种简单高效的 alignment 学习方式：首先采用一种新的 energy-modulated 注意力机制得到 guided alignment，然后利用 guided alignment 计算音素的时长信息，最后通过音素的时长信息构建 monotonic alignment。本方法无需外部的 alignment 信息，无需引入额外的 alignment 损失函数。

对业务提效而言，奇富科技的研究成果具有易训易用、音质高超、合成快速的优势。

这种端到端可微的方法使得各个模块可以方便地替换为各种类型的神经网络模块，从而具有良好的扩展性和稳定性。相比于主流的自回归模型，推理速度提升了 10 倍以上，能够满足实时语音合成的需求。

该方法也令合成语音更好听、更生动、更像真人，大大提升了语音交互的听觉感受。根据进行的多人 MOS 评测，该方法的 MOS 分值达到了 4.32 分（满分为 5 分），合成语音的自然流畅程度接近于目前最优的自回归模型，显著优于同类型的非自回归模型。

此外，与同类型方法相比，该方法可以节约 50% 以上的训练时间，显著提升模型训练效率。

奇富科技在对话机器人领域有着和业务同步的先发优势，在语音技术上，一直坚持投入、坚持自研。就在两个月前，奇富科技另一篇音频论文《基于多粒度 Transformer 的多模态情绪识别》（Multilevel Transformer for Multimodal Emotion Recognition）被第 48 届 IEEE 声学、语音与信号处理国际会议 (IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2023) 接收。

「我们很高兴在理解用户、优化表达方面取得了关键性的成果。随着奇富 GPT 对于公司各业务层的重构，我们已经极大提升了对于用户在文本上的理解能力，从语音到文本，再从文本回到语音，更好的识别是为了更好的表达和输出，我们将持续投入，用前沿技术重塑用户体验。」奇富科技首席算法科学家费浩峻表示。

最新文章