科技让人越来越「懒」，未来我们可能会闭着眼读新闻吗？

秉承着科技让人越来越「懒」的原则，语音正在改变着人们的交互方式，你现在可以用语音输入代替打字、用语音指令代替触控操作，甚至能直接跟语音助手对话，让它来帮你完成一些事情。其实语音技术还有一个用处，就是把文字转换成语音，让人们可以用「听」的方式来阅读一些文字，这里用到的就是语音合成。我们在很多公共场合听到的「机器音」，都是用语音合成技术生成的。

当然，这样生硬而不带任何感情色彩的声音谈不上什么用户体验，只是在某些场合完成一些重复性的工作，节省人力成本。但大家有没有想过这样一个问题，如果机器音也可以变得不那么生硬，和真人类似，我们的阅读习惯会不会因此改变？

产生这样的想法来源于最近听到的一个声音。掌阅的语音朗读功能中有个「情感男声」选项（百度语音提供支持），把语速调到较慢，这时它发出的声音就变得和一些有声小说的主播类似，有停顿、有语气、有感情，说出的话就是完整的一句，而不像用词语拼凑起来的。由此我产生一个想法，如果这种类似真人的声音可以配合文字转语音功能大规模使用，我们看到的所有文字新闻是不是就都能转成文字内容？这样就不再需要用人工朗读的方式生成语音内容，用户也不用再忍受生硬的机器音。也许未来，语音新闻会成为一种新的趋势。

类似真人声音+文字转语音，万物皆可读

关于文字转语音的技术已经有很多公司在做，比如国内的讯飞，他们就做了一个主打有声阅读的产品「讯飞有声」，用语音合成技术代替了人工朗读。不光是小说，在这里还可以读知乎、公众号、新闻等平台的文章，相当于是把文字转语音工具、听书网站、新闻资讯三合一，达到「一键朗读」。和喜马拉雅 FM 这样的音频内容平台相比，讯飞是在用语音合成技术来代替人工，这样一来创作者就显得不重要了，用户可以将看到的任何文字内容转化成语音，而不用局限于现有的音频内容。

近几年音频节目、短视频内容兴起其实可以说明一件事，就是单纯的文字内容已经不够丰富，不够吸引人。上班族习惯在通勤路上浏览新闻，不断加快的生活节奏也让人对长篇文字失去耐性，所以喜马拉雅、得到这样的平台可以火起来，让用户用一种贴近生活、更轻松的方式来获取信息。诚然，头部用户、优质内容是吸引用户的重点，但从一个较长的时间周期来看，语音平台的发展需要持续的内容生产。毫无疑问，类似真人的声音+语音合成才能满足这样的需求，才具备改变行业的力量。

极客公园的「极客早知道」栏目已经在今年四月份增加了语音播报的形式，我们独家的音频栏目「IF Talk」也已经更新了六期内容，很多人反响不错（大家可以在最新的极客公园 App 3.0 版本中收听）。如果每篇文章都能以语音的方式提供，是不是会更方便阅读？这个事情由人工朗读来完成是不现实的，效率低，效果可能也不好。但如果用类似真人的声音+语音合成的方式来做，会更容易实现。

讯飞在微信里面也做了文字转语音的小程序「讯飞快读」，不过定位是工具，用户需要手动把文字复制，或者搜索公众号文章才能听到语音朗读。微信小程序里还有个产品叫「飞鸟听听」，他们也是主打文字转语音的功能，不过并不是做工具，而是在用新闻资讯产品的思维来做。只看文字转语音的技术的话，好多公司都有这个能力，我们也看到了可以把机器音做得和真人声音差不多的产品。但是在技术成熟后，更重要的是产品的实现方式和体验。

语音合成可以填补智能音箱的内容空白

语音新闻会成为未来的发展趋势，还可以从另一个角度来佐证，那就是现在越来越流行的智能音箱和语音助手。智能音箱的市场已经竞争到了百元以下，门槛降低，用户增加，这时候内容就成了一个巨大的需求。家里买了智能音箱的人都知道，现在的语音内容其实很少，而且各家的内容壁垒也高，只靠接入现有的语音内容远远无法满足需求，但如果用类似真人的声音+语音合成的方式来解决，就意味着有了一个不会枯竭的内容生产机器。谁可以先将技术、版权、产品这些整合，把体验做好，谁就能拥有它。这可以绕过拼资源的老路，从技术的方面捷足先登。

另外还有越来越智能的语音助手，它对手机的交互已经是产生了巨大的影响，但扮演的角色还是一个介质、一个传声筒，如果语音合成可以无限接近真人声音，那么语音助手就可以兼任生产者、朗读者。未来读新闻的场景可能是这样的：「Hey Siri！我想读极客公园的最新文章。」然后 Siri 直接帮你找到文章，并语音朗读。这时候语音内容就不再受限于人工朗读，可以随时随地来听新闻。

存在版权、准确度等问题

不管是文字、语音、视频还是哪种内容，版权都是一个让人头疼的问题。当语音合成可以尽量像人，那么这样生成的内容该怎么定义版权呢？如果文字转语音只是作为一个工具，那内容的生成、消费就只是用户的个人行为，但如果把它当一个语音新闻的平台来做，这就会涉及版权问题了。

另外，掌阅中的「情感男声」虽然已经无限接近于有声小说的主播，但说话是一股说书的味道，如果让他来读新闻，可能会有一些违和感。所以要想让语音合成「什么都能读」，可能还需要更多的声音角色，并针对文字内容匹配合适的声音来朗读。

语音合成还有一个问题，就是准确率。连真人都可能把 iPhone X 念成「爱疯叉」，机器能保证不出错吗？比如像 GeekPark 这样的英文，「极客之选」——极客公园的新酷产品频道，这样有复杂符号的内容，怎么处理就是个问题。文字转语音的技术必须针对这些具体出现的场景进行优化，让机器去适应人的文字表达习惯，再输出成语音。当然，抛去这些细节不说，语音合成的效率和准确率一定是会比人工朗读要高的。

未来我们会怎样进行阅读？

语音内容是符合人们阅读习惯的，智能音箱等产品的发展也需要大量的语音内容填充，而文字转语音的技术和类似真人的朗读已经可以实现，所以未来我们看新闻的方式可能会发生翻天覆地的变化。

首先是语音内容的数量，不局限在已有的人工朗读，大部分的生产者变成了机器。第二是阅读方式，语音助手可以兼任助手和朗读者，用户只需要和语音助手对话就可以得到想听的内容。第三是阅读的设备，手机、智能音箱都可以用来获取信息，语音助手让它们无缝结合，语音新闻可能成为人们关注的重点。

音频内容平台早就进入到了拼资源的状态，用户需求和智能音箱的内容空白又远远没有得到满足，所以我们看到了一些公司想用语音技术改变这样的局面。「随身听」在用智能语音的方式来做内容平台，「飞鸟听听」想用文字转语音的方式做播客，讯飞也推出了「讯飞有声」，不局限于做一个工具。再加上无线耳机、智能音箱等产品的流行，我们的交互、获取内容的方式都在「语音化」。当基本技术成熟，谁最先把技术、版权、产品等资源整合，把体验做好，谁就可以掌握这台永不枯竭的内容生产机器。

头图来源：视觉中国

编辑：Rubberso