腾讯音乐天琴实验室首次发布三套开源数据集，助力音视频技术变革

3 月 13 日, 腾讯音乐天琴实验室联合清华大学人机语音交互实验室 (THUHCSI)、音频语音与语言处理研究组 (ASLP@NPU)、CCF 计算艺术分会及北京市智慧广电 (网络视听) 重点实验室四家机构共同发布三套开源数据集, 该项目在中国音像与数字出版协会数字音乐工作委员会 (「中国音数协数字音乐工委」) 的指导下, 面向行业、高校专业研究人员提供数据开放服务, 夯实产业发展基础, 为数字音乐产业升级注入新活力。此前, 在中国音数协数字音乐工委指导下, 腾讯音乐牵头制定了两项团体标准, 打开行业规范化发展新格局。

天琴实验室发布三套开源数据集, 产业变革有据可循

此次发布的三套开源数据集分别是片段翻唱数据集、哼唱数据集和歌唱评价数据集。此数据集面向海内外的相关研究人员和专业人士, 登录天琴实验室开源数据集中英文官网可下载相关内容。

其中, 片段翻唱数据集 (Lyra-CoverSegment Dataset, 简称 Lyra-CS Dataset) 打破目前只有全曲翻唱开源数据集的局面, 有助于研究解决听歌识曲难以识别翻唱改编的问题。Lyra-CS 来自于 QQ 音乐曲库满足开源授权条件的歌曲, 其中包含不同语言、流派、歌手的歌曲原唱及对应的翻唱或 live 版本片段, 数据集总时长近 400 小时, 包含超 53 万个录音片段。

哼唱数据集 (Lyra-Query by Humming Dataset, 简称 Lyra-QBH Dataset) 为促进哼唱识别技术发展而构建, 用户多样性强, 录制环境与真实场景更为接近。该数据集主要用于哼唱识别算法评估。

歌唱评价数据集 (Lyra-Singing Assessment Dataset, 简称 Lyra-SA Dataset) 是国内首个整曲演唱的歌唱评价开源数据集, 其样本数据来源于全民 K 歌, 对音乐教育、线上卡拉 OK 及线下赛事具有非常高的研究与应用价值。该数据集致力于提供更多真实场景下的歌唱数据及标签, 帮助研究人员测评或建立歌唱评价模型。

三套开源数据集突破目前产业数据的局限, 在数据广度、丰富度和真实可信度上都有巨大提升。将为促进听歌识曲技术、哼唱识别技术、歌唱评价技术的发展提供更全面的数据支撑。

天琴实验室目前业已成为行业内顶尖的音视频研究实验室。近日, 腾讯音乐天琴实验室再次被深圳市南山区总工会命名为示范性劳模和工匠人才创新工作室, 成为南山互联网企业唯一获此殊荣的工作室, 这也是继去年 10 月份 QQ 音乐技术副总裁、天琴实验室负责人周文江获评南山区「十大创新工匠」后, 天琴实验室的创新成果和攻关能力再次获得权威表彰和认可。

腾讯音乐牵头制定两项团体标准, 数字音乐产业高品质发展有标可依

除了不断攻关新技术, 引领音乐科技发展, 腾讯音乐还主导参与音乐行业的标准制定, 推动行业标准化发展。

2022 年 10 月, 中国音像与数字出版协会正式发布《音乐平台术语》和《音乐平台歌词格式要求》两项团体标准。在中国音数协数字音乐工委指导下, 由腾讯音乐牵头, 联合数字音乐平台、内容制作平台、行业技术平台等多家主流企业共同完成此次标准的研制。在近两年的标准研制过程中, 腾讯音乐肩负起头部平台责任, 与行业伙伴紧密合作, 切实推进标准的制定和落地。

《音乐平台术语》《音乐平台逐字歌词文件格式要求》的制定与实施将统一和规范数字音乐通用术语及其定义, 规范逐字歌词文件格式, 实现数字音乐领域术语的标准化、格式的统一化, 为音乐平台的管理和服务提供帮助。另外, 两项标准的实施将进一步完善行业规则体系, 为数字音乐用户、音乐人、音乐作品提供良好支撑, 激励音乐人创作更多高质量音乐作品。

一直以来, 腾讯音乐立足于行业服务者的角色, 天琴实验室不断探索科技创新, 升级数字音乐与音频娱乐服务, 为用户创造更具创意、品质更高的音娱产品体验, 满足广大用户多元消费需求, 推动产业高品质发展。未来, 数字音乐产业势必将面临更多新的挑战, 相信腾讯音乐能够为行业创造更多新的惊喜, 继续引领行业发展。

来源：互联网

最新文章