这个网站只要录音 1 分钟，就能克隆出你的声音

只需要你的几段话，机器就能克隆出你的声音，这样的事情你相信吗？

这种似乎只有在过去电影和科幻作品里才会出现的情节，最近在极客之选（微信号 GeekChoice）发现的这个名叫 Lyrebird 的网站成为现实，并且明白无误地呈现在我们面前。

视频/Lyrebird

Lyrebird 取自一种生活在澳洲的特殊鸟类——琴鸟，它最大的特点是能模仿周围的声音，只要听到声音信号，它都可以很自然模拟出来。事实上 Lyrebird 网站做的就是类似的事情。

打开网站，主页上清晰的写着「我们创造世界上最真实的人造声音」（We create the most realistic artificial voices in the world），看起来有点让人疑惑，不过下方写着这样三条注释，表明网站的目的：

通过赋予独特声音使你的产品独特；
在你需要时创造你自己的声音助手；
为你的应用集成用户自己的声音。

既然是创造声音的网站，那么它到底能有多像？这就引起了我们的强烈好奇，虽然在网站 DEMO 部分，我们听到了官方合成的足以以假乱真的特朗普以及奥巴马的声音（文章开头视频部分），但那和我们以前见到的 AI 视频作假都更像是展示技术而已，究竟能否模拟出坐在电脑前的你我呢？

带着这个问题，我们又看到官方一个名为「CREATE YOUR OWN VOCAL AVATAR」的功能，上面写道只要录制 1 分钟，就能创造出属于每个人的声音，这就让我们迫不及待想要试试看这扇新世界大门背后的秘密。好在这个功能并没有使用门槛，官方只要求使用前先注册，就能免费使用。

怀着半信半疑又满心期待的心情，我开启了特别的录音之旅。Lyrebird 官方要求每个人必须至少录制 1 分钟，即 30 段英文，这些英文是来自官方素材库中的随机句子，或长或短，但都不算太难。

点击「Start recording」，对着麦克风念出句子，点击上传，接着出现下一个句子，点击「Start recording」...... 如此往复，完成 30 句就算采集成功。值得注意的是，每一句话录制过程中，如果你感觉不满意，都可以选择重新录制。

经过几分钟的录制，30 句话上传完毕，这时会弹出一个窗口，上面告诉大家，录制的材料越多最终呈现的声音效果越好，30 句话的英语实际上是 1 分钟的素材，最好能够录制 5 分钟，也就是 150 句话，效果会更好。当然，其实 30 句话也符合标准，点击「创造我的声音」，见证奇迹的时刻就要到了。

Lyrebird 网站会在云端利用 AI 技术进行分析和合成，大概一分钟左右，我们终于看到官网出现了一个新的对话框。而这就是最终我们的「声音制造器」。

在对话框输入任意句子或单词，你就能听到被机器制造出来的声音，听起来和我本人的声音的确非常接近，即便是稍长一点的句子，它也能发出很正常的声音，给人一种更专业的感觉，不过也并非全无缺点，至少我发现了两个目前还不完美的方面：

第一，声音表现出来的尽管非常还原本人，但能听到其中夹杂的细微电流声，尝试多次都会这样，仔细听其实和真人的声音会有差别；

第二，由于用英语录制素材，输出的也是英语句子，所以整体虽然在英语上可圈可点，但当让它说出中文句子时，表现的并不好。

尽管如此，Lyrebird 仍然让我们感到惊讶，在创造自己声音这件事情上，至少并不如我们想象的那么困难。实际上，它目前的效果已经比去年好了不少，就在上个月，Bloomberg 记者 Ashlee Vance 就用机器合成的句子跟家里人打电话并问好，他的母亲甚至很难分清楚究竟是不是真的。

在让人惊叹的技术背后，Lyrebird 所关注的领域自然也引发不少人的担忧，究竟这些能被用来做些什么？如何不被滥用？更进一步会变成什么？

在 Lyrebird，我们看到了创始团队设想的几个场景，包括聊天机器人、电子书、智能客服、视频游戏、以及文章辅助。这些场景实际上已经有声音存在，但 Lyrebird 希望做到的是，通过更真实的声音，能帮助大家更好融入这些场景，同时也能节省下很多人力资源。

至于如何不被滥用，Lyrebird 联合创始人 Jose Sotelo 在接受 Bloomberg 采访时谈到，他们希望这个技术能帮助那些发声困难的人，通过官方 API 接口，为他们打造出自己克隆出的更真实声音，而不再是过去那种机器发出的声音。一个例子是 Ice Bucket Challenge 创始人 Pat Quinn，他患有 ALS（肌萎缩侧索硬化），但在使用 Lyrebird 之后，他也可以通过「自己的」声音进行演讲和交流。

而关于 Lyrebird 的未来，我们不妨再回想一下今年五月，Google I/O 大会上，Google Assistant 带来的令人惊讶的现场演示环节。当机器已经能够模拟出真实的人类声音之后，如果还能表现出人类说话时断断续续、略带思考的顿挫节奏，达到以假乱真的程度，是否就会更进一步，帮助我们处理那些日常的琐碎事情呢？

新的技术出现往往会伴随人们的一些焦虑，但即便如此，它在前进的过程中也会慢慢修正错误，改进不足，我们既是见证者，也是能够改进的参与者，所以也不必过于担心，正如 Jose Sotelo 所说：

「我们希望技术能用于积极的事情，而不应该令我们害怕。这就是我们应该小心和热情的原因。」

最新文章