作为双 11 背后庞大系统的大脑,忙碌的阿里云人工智能 ET 还抽空表演了一个神奇的魔术。
11 月 10 日晚,「天猫双 11 狂欢夜」在深圳大运中心拉开巨幕。除了汇聚全球半个娱乐圈的明星外,还有一位拥有「超能力」的神秘嘉宾登场——阿里云人工智能 ET。在全球上亿观众的见证下,ET 隔空计算出 5 人手中的扑克牌,震惊全场。
在狂欢夜的压轴环节中,ET 一出场便秀出强悍的语音识别和交互能力,与主持人华少神同步。众所周知,华少凭借 400 字/分钟的语速被誉为「中国好舌头」。ET 竟然可以实时将华少的现场口播翻译成文字,投在电视机屏幕上,达到极高的准确率。好玩的是,一旦出现错误,ET 还会结合上下文语境进行毫秒级修正。
不但能听懂华少的问题,ET 还能通过现场观察和思考,模仿人类的声音回答问题。
华少发出挑战:从 32 张扑克牌中抽出 5 张,ET 你能不能猜出是什么?随后主持人邀请五位现场观众上台,并依次切牌打乱顺序后抽出 5 张。ET 能算出他们手中的牌吗?
ET 略略沉思,提了一个小要求,请抽到黑色牌面的观众转身。通过机器视觉识别出转身观众后,ET 瞬间计算出答案:梅花 A……五个居然全中!ET 的神奇表现让主持人大吃一惊,「实在是太,不,可,思,议了!」
理论上 32 张扑克牌分到 5 人手里要全部猜对的概率是 2400 万分之一。ET 究竟是如何做到的呢?
「这是一个经典的魔术,不过这次是由人工智能魔术师来表演。32 张扑克牌以 De Bruijn 序列排列,五人洗牌之后,实际上排列可能减少到 32 种,ET 将转身观众(黑牌)记作 1 红牌观众记为 0。进一步从 32 种可能性中算出最终的唯一排列」,阿里云人工智能科学家初敏说,通常这个魔术非常考验魔术师的记忆和推算能力。对 ET 来说,这些都不是难题。
难的是整个过程中需要 ET 要具备高精确度、高实时性的视频识别能力,并用人类的语言和主持人沟通交流。「因直播环境受到场地、灯光、音效的影响,语音识别、视频识别都会受到很大考验」,初敏说。
据了解,无论是语音识别还是图像识别,底层都依赖于深度学习算法以及大规模计算能力。一套复杂算法模型的训练往往需要千亿级别的样本数据,这就对背后的计算能力提出了很高的要求。
ET 代表的是阿里云语音识别、语音合成、自然语言理解、实时图像识别、机器学习的综合技术,背后是阿里云飞天操作系统强大的计算能力。
值得注意的是,这并非 ET 第一次登上舞台。在今年 4 月份湖南卫视《我是歌手》的决赛中,ET 在直播现场成功预测了李玟夺冠。而在其他领域,ET 已经开始担任法庭书记员、超级交通警察、影视投资经理、客服等角色。