讯飞的绽放与语音云平台的机会

讯飞的绽放与语音云平台的机会

科大讯飞副总裁江涛第25期极客活动上表示,与其打造“中国版Siri”,科大讯飞现阶段更倾向于开发实实在在的功能性工具。围绕自身的语音云优势,科大讯飞将为开发者提供支持,让语音技术在生活、教育、家电、汽车等行业得到更多的应用。

讯飞的绽放 - 管理与投资的关键点

讯飞的前身是科大人机语音通讯实验室,由实验室的研究员在98年创建了公司。在建立之初,董事长刘庆峰制定了很有前瞻性的规则:先分配创业团队的股份,在后来的发展过程固定这个分配比例。江涛提到,很多创业已经到成功状态的公司,在上市前往往会出现高管出走,甚至反目成仇的情况。如果大家把分配规则给定好了,能避免很多的矛盾。

讯飞在创业初引入了联想投资(现为君联资本)和上海复星两家资本。在投资谈判过程中,柳传志曾经问刘庆峰未来讯飞准备做多大的规模,后者答曰要做的跟联想一样大。据柳传志后来讲,听到刘青峰的回答,他十分高兴。联想比较专注于讯飞的管理支持,为其建立了规范的管理体系。复星不急于短期内得到回报,对讯飞团队市场以安慰为主,主动要求提高团队的待遇。两家公司持续不断地对讯飞给予资金以外的支持,一直到其盈利。

讯飞的绽放 - 技术的关键点

得到复星的资金支持,讯飞做的第一件事情是建立了中国语音创业联盟,跟国内最早做语音的声学所合作,跟清华等大学建立联合实验室,随后与自动化研究所合作。讯飞的策略是为科研学者提供研发所需的资金支持,后续的产业化由讯飞来操作。

建立这个平台机制后,讯飞整合了国内很多语音科研的资源,也得到老专家的支持。声学所的孙晋昌老师说他这辈子做的最正确的事情之一,就是与讯飞合作。

提到语音研发史,江涛说计算机从一出现就有语音对话的需求,到上世纪八十年代建立了现代语音理论体系框架,之后是工程化、实践化的过程。据称Jobs为了说服人家Mac电脑装上语音以后很酷,把一堆人请过来,现场演示语音识别。实际上是在隔壁房间有专人打字,打字速度快到让人相信是语音对话。但是它确实体验很好,当时把所有人都震撼了。

理论体系构建完,语音进入了应用阶段。微软和IBM早期的语音产品不很成功,原因是成熟的语音应用需要互联网的云计算服务。直到 2009 年 Google 推出 Google Voice Search,2011 年 Apple 推出 Siri,语音应用才进入了实用阶段。

讯飞在2010年推出了国内第一个语音云,基于语音合成,语音识别,语音搜索的交互服务。在国内当属探索语音应用市场的先驱开发者。

讯飞语点的市场定位

讯飞语点并不希望打造“中国Siri”,对市场有其明确的定位。毕竟在当下,AI不很成熟,讯飞语点最初的设想是语音代替点击,用语音一句话代替发短信、上网等点击操作。后来设计理念延伸到“语音点亮生活”,利用语音输入来简化操作,帮助用户提高使用手机的效率。这与Siri的拟人形象不同,讯飞语点是让人简单使用的工具。

讯飞语点的产品思路

语音应用领域,已有苹果、谷歌、微软在各自的操作系统平台做研发,他们很有可能将其捆绑在操作系统中推广。讯飞作为传统的B2B公司,不完全依赖于互联网,在教育、电信等专业领域也有不错的市场业绩。

讯飞语点计划用个性化语音云进入消费级市场,为方言、口音等个性化语音定制个人语言模型。用户注册语音云通行证,即可把声学模型保留到云端,在其它设备能够延续良好的使用体验。

讯飞语音云平台的商业思考

讯飞在2008年作为A股公司上市,现已有几亿的年营业额,一亿以上的纯利润。目前语音云有五千万的用户规模,处于培养用户使用习惯的阶段。未来几年可能要普及到汽车、网络电视、教育等领域,培养更多人使用语音操作的习惯。

鉴于普通话的语音模型相对稳定,2008年讯飞首先推出了普通话评测系统,应用于每年报考数百万的普通话等级考试,获得国家语委的肯定。广东、浙江在中考高考将引入英语口语考试,也是基于讯飞的软件做开发。而方言的语音模型将通过语音云收集,在服务器端做进一步的优化和适配。其原理是用户与通用模型做语音交互操作,通用模型可以是普通话,也可以是粤语。

讯飞的开发者支持计划

对于还在创业阶段,没有盈利模式的开发者,讯飞将提供免费支持。在今年的战略发布会上,讯飞启动了语音开发者大赛,随后还将举办语音开发者训练营。届时将有讯飞的工程师介绍语音云,开发者之间也可相互交流探讨。

具体到开发层面,用语音技术可以做一些功能性的应用。服务器、带宽、数据分析可以交由讯飞解决;讯飞语音云则解决api等实际问题,已有大众点评客户端基于语音云实现了去哪儿吃饭的功能。

讯飞语音技术的改进空间

讯飞语点是基于语音云开发,依赖成熟的移动互联网环境,在二三线城市需要稳定的网络支持。考虑用户的使用场景可能是嘈杂的公共场所,讯飞语点急需提高自身的信噪比。另一个改进方向是口音问题,中国人口音众多。目前语音云仅支持带口音的普通话,这需要在算法和数据积累方面做很多的工作。再一个方向是个性化的语音智库,通过登录客户端的语音通行证,用户能在各类设备上获得一致性的体验。

关于语义识别,这属于易学难精的新问题,讯飞在语音领域做的是长期研发,先提升语音识别率,再想办法加快语义识别的进程。

整理自科大讯飞副总裁江涛在极客活动上的分享,点击观看视频

语音识别讯飞语点极客活动
下载极客公园客户端
iOS下载
反馈