德扑人机大赛 AI 再胜,我们需要为此紧张吗?

摘要

也许我们更该担心的,是有AI辅助的人类和普通人类越来越深的鸿沟。

4 月 10 日,持续五天的德州扑克人机大赛落幕,由六位中国顶级的德州扑克选手组成的龙之队不敌由卡内基梅隆大学开发的德州扑克AI 冷扑大师 Libratus(以下简称冷扑大师),最终输给对手 792327 分。

比赛2.jpeg

这是一场「预料之中」的失败。和去年李世石与 AlphaGo 对战前的信心满满不同,龙之队的队长、曾任人人网副总裁,现任常春藤资本合伙人的杜悦赛前就曾经直言:挑战冷扑大师,自己的胜率最多 10% 左右,不会超过 20%。

为了降低运气成分,保证公平,在这次比赛中,六位选手被分成 AB 两组,人类玩家和机器的手牌是对调的,AB 两组队员分别使用完全相同的两副牌与机器一对一交叉对战德扑,每位选手在五天时间里总共要和机器打 33000 手牌,并且实时结算。

在五天的对战里,六名人类队员被分割安置在会场的两端焦灼应战。而在会场另一边的狭小房间里,则由冷扑大师的缔造者卡内基梅隆大学教授 Tuomas Sandholm 和爱徒 Noam Brown 坐镇——二人的主要任务是确保冷扑大师在这里能够顺利运行,并且在每天的战局结束后,为冷扑大师的表现进行评估、「修复漏洞」,第二天继续整装上阵。

冷扑大师的「套路」

输给冷扑大师并不意外。今年 1 月,冷扑大师在宾夕法尼亚州匹兹堡 Rivers 赌场的德扑牌桌上,就曾经打败 4 位人类职业玩家,夺走了共计 176 万筹码。

但赛前龙之队还是被寄予了期待,不同于年初匹兹堡德扑人机大战中四位职业玩家只是扑克高手,龙之队的成员清一色的具备计算机和专业德州扑克的双重技能,这也让选手有机会去窥探冷扑大师的「套路」。

虽然团队总体得分最终不敌 AI,但在比赛过程中,几位人类队员的个人成绩曾几次反超机器。

WechatIMG2.jpeg

计算能力强于人类千万倍的冷扑大师终究还是机器,一两天过去,龙之队的成员开始摸到了一些冷扑大师的「套路」:「机器玩的很『猛』、很喜欢拿小牌下大注,bluff(唬人)能力了得,以此扰乱对手的策略。」

于是在比赛进行到的第三天时,龙之队意识到,如果在机器面前适当「装怂示弱」,将会在一定程度上影响冷扑大师的步伐和判断,结合概率和运气的机会也许能够反戈一击。于是在第三天里,龙之队的队员童舟抓住这样的规律实现了连续几场的「上水」。

筋疲力尽与隐隐的恐惧

不过这样的策略最多只能保证人类少输,却没有办法让人类获得很大的赢面——就像杜悦所说,每天都能做到牌局上的小胜,但是每次都胜的精疲力尽。而机器是不知疲倦的,更不会受到现场分数变化带来的情绪影响。

有趣的是,冷扑大师并不完全如其名字那样面对对手毫无声色,它也会感知人类选手的情感情绪,并强化学习。龙之队的队长杜悦提到一个细节:「有些选手很情绪化,可以哀嚎,有感情。你明显能看出来机器也会上头,有时候机器也会做出非常疯狂的举动,甚至模仿打的最好的那个选手的行为。」

最终,五天八场比赛结束,人类勉强维护住了尊严,但机器又一次展现出了它强大的计算力。

极客公园创始人张鹏在五天的正式挑战结束后第一时间参与冷扑大师对战体验,他谈到了面对冷扑大师时的「无力感」:「在跟冷扑大师打牌的时候,会有一丝隐隐的恐惧,即便运气爆棚拿到一手好牌,AI 也不会上钩,会迅速弃牌。简单的运气和一般的高智商在面对冷扑大师时几乎起不到作用。」

冷扑大师战胜人类意味着什么?

「如果机器和围棋的对决涵盖的是完美信息问题,那么德扑其实涵盖的是不完美信息对称的时候,机器如何做出选择的问题。」在极客公园前沿社的活动上,创新工场创始人李开复这么解释德扑人机对战背后的真正意义:曾经人类以为在 EQ、感性等方面的长处也在遭到的机器挑战,至少在德扑这个领域,机器已经学会了炸胡、虚张声势等等手段。而在现实生活中,很多商业洽谈,甚至外交方面的各种博弈其实也是一样的道理。

冷扑大师背后其实是一个大型的 AI 谈判算法,但它并没有用到 AlphaGo 的核心深度学习、神经网络等技术,而是利用了比较传统的线性规划,其核心理论就是博弈论。需要计算概率的、一对一的德扑对战涉及到的本来就是一个零和问题。博弈论可以在非合作对策中告诉人们最佳策略是什么,而博弈论和 AI 技术整合在一起,就能帮助机器在最短时间里用算法找到最佳策略,找到最接近纳什均衡的结果。

WechatIMG4.jpeg

如果说,横扫顶尖围棋高手的 AlphaGo 让我们看到了 AI 如何在短时间内颠覆一个行业,德扑 AI 冷扑大师与人类对战的结果则意味着在棋牌维度下今后任何的对战都失去意义,AI 注定超越人类,但棋牌游戏只是个开始。

在德州扑克这样不完美信息博弈中胜过人类的 AI,一旦未来应用到金融、战略谈判、商业决策等场合时,过去人类所谓的信息或运气等优势就会被大幅度剔除,更进一步的结果是,这类 AI 会成为一种武器,靠 AI 辅助的人类在面对普通人类时将会在决策上拥有巨大的优势,也带来更深的鸿沟。

但回到那个老生常谈的问题:人类又一次被机器击垮,我们需要感到紧张么?冷扑大师的创作者 Tuomas Sandholm 教授更愿意把这次比赛当做一次实验,并且提供了更一个有趣的视角看待这个问题:

「从哲学角度上来说,我们本来也不应该把人的智能作为智慧的终极标杆,有人问我们是不是要做超越人类的德扑 AI,但是我们做的是超级人类的 AI。超越人并没有意义,超人类的 AI 不仅让游戏变得更有趣,可以反过来教人一些想不到的战略,让这个游戏,甚至让很多事情变得更丰富、有更多新的可能性。」

(编辑:王伟)

最新文章

极客公园

用极客视角,追踪你不可错过的科技圈.

极客之选

新鲜、有趣的硬件产品,第一时间为你呈现。

张鹏科技商业观察

聊科技,谈商业。