
全球首个手语 AI 合成主播「小聪」造福听障人士。
5 月 17 日,搜狐科技 5G & AI 峰会在北京举行,搜狗 CEO 王小川应邀出席发表主题演讲。活动中,王小川正式发布最新一代搜狗 AI 合成主播——全球首个手语 AI 合成主播「小聪」,基于搜狗领先的人工智能和 AI 分身技术,以「黑科技」的力量帮助听障人士更好融入社会,更好享受数字化生活。
围绕三方面解决听障难题
根据世界卫生组织发布的数据,全球听力障碍人群高达 4.66 亿,在我国则有 2700 万人。因无法常态化、高质量地接受资讯信息,很多听障人士难以融入社会,最终成为被遗忘和边缘化群体。
目前,在以电脑、手机为载体的各类新闻资讯、文娱节目中,引入手语协助的少之又少。即使有能力的电视节目提供手语解说时,也多以正常语序编排,很少照顾到手语的特殊表达结构,造成绝大部分听障者只能理解不足 60% 的内容。因此,通过技术创新实现听障人士真正可懂的手语播报能力,对于帮助听障者克服沟通障碍,更好融入社会非常有价值。
针对现存的问题,搜狗正在从三个方面着手,努力解决听障人士在获取信息、沟通交流等方面的难题。
一是在语言侧将手语语言转化成计算机语言。在这个过程中,搜狗的工程师、研究员和手语专家们一起配合、研究,逐步打造一套手语应用体系,这个体系能够快速地把手语语言转化为未来「数字人」的动作。二是基于搜狗已有的技术,探索如何实现健听人和听障人士之间两种语言的高效率高效率转换。三是基于翻译能力,探索如何能用语言体系驱动「数字人」做更多的逼真的,自然连贯的手语动作、面部表情的表达。
「小聪」以打造听障人士真正可懂的通用手语播报为目标,立足于搜狗领先的数字人技术体系——搜狗分身,集成了超写实 3D 数字人建模、机器翻译、多模态数字人生成、迁移学习、实时面部动作生成及驱动等多项领先 AI 技术,实现了超写实 3D 数字人自然可懂的手语主播能力,使机器可以基于输入口语文本生成逼真度高、手语表达准确的 3D 数字人视频内容,从而具备「超写实的逼真数字人效果」、「高可懂度的手语表达能力」、「高接受度的手语展现效果」三大特点。
攻克难关,凸显优势
手语与所有语言语种的不同之处在于,它是一个视觉语言,因此在进行手语 AI 合成主播的研发时,会遇到许多意想不到的困难。其中最为主要的有以下几个。
首先就是手语的语序问题,手语的词汇顺序和汉语有很大的不同,比如说像「开车不许喝酒」在手语表达的是「开车,喝酒,不准」。为了解决该问题,研发团队尝试建立了相应的语言规则以此实现语序的转化,并且通过相应的语料库对算法进行了训练。
其次是在词汇方面,手语里没有虚词、量词,所以在词汇上搜狗建立了手语到汉语之间的映射词典,尝试去解决手语和汉语之间词汇上的差异问题。
除此之外很关键的一点是,手语中包括许多非手控的信息,比如表情、口动、身体朝向等,目前研发团队正在通过建立一些表情库或者是存在表情标记的数据库驱动算法的设计。
自去年开始研发至今,手语 AI 合成主播的研发团队攻克了部分难题,如今发布的手语主播「小聪」具备三大优势,初步展现出了手语主播的强大功能。
数字人效果方面,「小聪」使用了行业最领先的 3D 重光照扫描还原、面部肌肉驱动、表情肢体手势捕捉技术,生产出了高度还原真人发肤、形象逼真、动作自然生动的数字人模型,数字人写实度的大幅突破则能够显著提升手语播报的真实感与亲切感,从而提高播报用户体验。
手语表达方面,「小聪」基于《国家通用手语词典》,能够实现健听人语言与听障者手语语言的机器翻译能力,基于输入的健听人语言能够低延迟生成高准确率的手语语言表征,通过搜狗分身的多模态生成技术,实时预测生成对应的超写实 3D 数字人驱动参数,进而快速生成数字人手语播报视频,在测评中可懂度可以达到 85% 以上,能有效帮助听障者克服理解障碍,达成信息有效传递。
手语展现方面,「小聪」可以完整实现手控信息及非手控信息的表达,通过机器翻译生成手语表征信息,覆盖手部动作、面部表情、口动唇动等多个维度,并基于搜狗多模态端到端生成模型进行联合建模及预测,生成高准确率的动作、表情、唇动等序列,从而达成自然、地道、接受度更高的手语表达效果。
在此过程中,「小聪」还运用了业内领先的搜狗 SLMT(Sign Langure Machine Translation)技术,在输出符合听障人士习惯自然手语的基础上,进一步提高了手语的可懂度、丰富和逼真了 AI 合成主播的表情与唇动能力,除了可以解决听障人士在日常生活、公共服务、特殊教育等多个场景下的信息不畅问题,还可以快速生成、批量复制,全年无休、随时随地提供服务。
彰显社会责任
作为 AI 合成主播的开创者,搜狗分身一直是行业发展的风向标,也始终站在业内最前沿,而搜狗分身之所以能够「引领」行业,得益于搜狗高度的社会责任感,以及搜狗 AI「赋能于人」的发展理念。
自 2018 年发布全球首个 AI 合成主播至今,搜狗分身始终在坚定践行「以人为本,为人赋能」,而「小聪」的诞生,既是搜狗分身技术的再一次迭代突破,又是搜狗聚焦更加需要帮助的听障特殊人群,将「以人为本,赋能于人」贯彻得更加彻底、更有温度的体现,同时也充分彰显了搜狗的社会责任感和企业担当。
作为全球首个手语 AI 合成主播,「小聪」能够帮助广大听障人士更好地接收资讯、更好地生活,更好地「看」世界,而从更高维度来看,它的广泛运用不仅可以造福国内听障人士,甚至可以走出国门、造福全球,彰显中国「智」力。