2021 SLT CSRC | 标贝科技增发 2800 小时儿童 ASR 商业数据服务

摘要

本次竞赛数据由联合主办方之一的标贝科技全程提供支持,近 400 小时的高质量成人朗读数据和儿童朗读、对话等参赛数据。

由西北工业大学、清华大学、厦门大学和标贝科技联合主办、中国计算机学会语音对话与听觉专业组支持的IEEE SLT 2021 研讨会旗舰活动-儿童语音识别挑战赛 (CSRC)最终排名结果及官方论文于日前重磅发布。CSRC 赛事持续近 3 个月时间,经过激烈竞夺,赛道一前三名由上海交通大学、大连奇辉计算机网络有限公司、网易有道信息技术(北京)有限公司摘得,而赛道二前三名为小米、东芝、同花顺公司获得。荣誉桂冠,实至名归。

据了解,本次竞赛数据由联合主办方之一的标贝科技全程提供支持,近 400 小时的高质量成人朗读数据和儿童朗读、对话等参赛数据,分别取自标贝自有 5000 小时成人中文朗读语音数据库、1800 小时的少儿语音对话数据库, 充分满足竞赛需要,匹配语音识别模型训练。

事实上,赛事数据一直是本届 SLT CSRC 一大吸睛点, 让赛事的关注度与参与度随之提升。而儿童语音数据更是厂商的关注点。缘由该数据在智慧教育、早教产品、智能音箱等众多语音交互场景中有着广泛应用基础。但儿童语言因其声线与吐字等原因,语音和语言特性不同于成人,有着天然的技术辨别难度。并且在训练过程中,如果没有覆盖大量带有标签的儿童语音,儿童的 ASR 的准确性仍明显低于成年人。因而,高质量儿童 ASR 数据的重要性不言而喻。

从本次赛事报名情况来看,2021 SLT CSRC 共吸引了近 60 家来自全球不同地区的高校、科研机构与厂商报名,覆盖中国大陆和香港、美国、新加坡、爱尔尼亚等地区,其中国内厂商参赛队伍不乏像爱奇艺、小米、网易、华为、马上金融等业内熟知厂商,而国内高校和科研机构汇聚了清华、浙大、上海交大、中科院自动化研究所等。本届 CSRC 竞赛受到了以上机构和厂商的积极参与,但仍有部分队伍未能如期报名,表示希望有机会再次参赛,应用数据做研究。

另外,本次赛事数据的价值还体现在了本届 SLT CSRC 论文方面。截至目前,基于标贝科技提供的儿童语音识别数据,已有包括 SLT 官方、小米、CUHK(香港中文大学)等机构发表学术论文。论文的发布不仅代表着当前业内极高的学术水平,更为从业者提供专业参考指南。

本届 SLT CSRC 竞赛结果和论文已揭晓, 但行业对数据的需求却未停止。为更好地推动儿童语音产品研发,标贝科技针对本次未能参赛以及对儿童 ASR 数据有更多需求的伙伴,特此提供以下数据产品

1、CSRC 数据

成人朗读数据 340 小时有效时长

儿童朗读数据 28 小时有效时长

儿童对话数据 29 小时小时有效时长

2、标贝科技儿童语音识别数据集

儿童中文语音数据库 有效时长 1800 小时

儿童英文语音数据库 有效时长 500 小时

儿童中英文语音数据库 有效时长 500 小时


最新文章

极客公园

用极客视角,追踪你不可错过的科技圈.

极客之选

新鲜、有趣的硬件产品,第一时间为你呈现。

张鹏科技商业观察

聊科技,谈商业。