人工智能直播表演魔术 阿里云 ET 双 11 狂欢夜秀超能力

摘要

作为双 11 背后庞大系统的大脑,忙碌的阿里云人工智能 ET 还抽空表演了一个神奇的魔术。

11 月 10 日晚,「天猫双 11 狂欢夜」在深圳大运中心拉开巨幕。除了汇聚全球半个娱乐圈的明星外,还有一位拥有「超能力」的神秘嘉宾登场——阿里云人工智能 ET。在全球上亿观众的见证下,ET 隔空计算出 5 人手中的扑克牌,震惊全场。

在狂欢夜的压轴环节中,ET 一出场便秀出强悍的语音识别和交互能力,与主持人华少神同步。众所周知,华少凭借 400 字/分钟的语速被誉为「中国好舌头」。ET 竟然可以实时将华少的现场口播翻译成文字,投在电视机屏幕上,达到极高的准确率。好玩的是,一旦出现错误,ET 还会结合上下文语境进行毫秒级修正。

不但能听懂华少的问题,ET 还能通过现场观察和思考,模仿人类的声音回答问题。

华少发出挑战:从 32 张扑克牌中抽出 5 张,ET 你能不能猜出是什么?随后主持人邀请五位现场观众上台,并依次切牌打乱顺序后抽出 5 张。ET 能算出他们手中的牌吗?

ET 略略沉思,提了一个小要求,请抽到黑色牌面的观众转身。通过机器视觉识别出转身观众后,ET 瞬间计算出答案:梅花 A……五个居然全中!ET 的神奇表现让主持人大吃一惊,「实在是太,不,可,思,议了!」

理论上 32 张扑克牌分到 5 人手里要全部猜对的概率是 2400 万分之一。ET 究竟是如何做到的呢?

「这是一个经典的魔术,不过这次是由人工智能魔术师来表演。32 张扑克牌以 De Bruijn 序列排列,五人洗牌之后,实际上排列可能减少到 32 种,ET 将转身观众(黑牌)记作 1 红牌观众记为 0。进一步从 32 种可能性中算出最终的唯一排列」,阿里云人工智能科学家初敏说,通常这个魔术非常考验魔术师的记忆和推算能力。对 ET 来说,这些都不是难题。

难的是整个过程中需要 ET 要具备高精确度、高实时性的视频识别能力,并用人类的语言和主持人沟通交流。「因直播环境受到场地、灯光、音效的影响,语音识别、视频识别都会受到很大考验」,初敏说。

据了解,无论是语音识别还是图像识别,底层都依赖于深度学习算法以及大规模计算能力。一套复杂算法模型的训练往往需要千亿级别的样本数据,这就对背后的计算能力提出了很高的要求。

ET 代表的是阿里云语音识别、语音合成、自然语言理解、实时图像识别、机器学习的综合技术,背后是阿里云飞天操作系统强大的计算能力。

值得注意的是,这并非 ET 第一次登上舞台。在今年 4 月份湖南卫视《我是歌手》的决赛中,ET 在直播现场成功预测了李玟夺冠。而在其他领域,ET 已经开始担任法庭书记员、超级交通警察、影视投资经理、客服等角色。

最新文章

极客公园

用极客视角,追踪你最不可错过的科技圈。

极客之选

新鲜、有趣的硬件产品,第一时间为你呈现。

顶楼

关注前沿科技,发表最具科技的商业洞见。