AI击败了六人扑克中的专业人士

一项人工智能计划击败了世界上最受欢迎的扑克形式的六人无限制德州扑克中的领先专业人士。

由卡内基梅隆大学与Facebook AI合作开发的人工智能程序击败了世界上最受欢迎的扑克形式的六人无限制德州扑克中的领先专业人士。

名为Pluribus的AI击败了扑克职业选手Darren Elias,他赢得了大多数世界扑克巡回赛冠军的记录,以及Chris“Jesus”Ferguson,六次世界扑克锦标赛的冠军。每个职业玩家分别玩了5000手扑克牌对抗五份Pluribus。

在另一项涉及13名职业选手的实验中,所有人都赢得了超过100万美元的扑克游戏,Pluribus一次共有5名职业玩家,共有10,000手牌,并再次取得胜利。

“Pluribus在多人扑克中取得了超人的表现,这是人工智能和博弈理论中公认的里程碑,已经开放了几十年,”天使乔丹计算机科学教授Tuomas Sandholm说道,他与Noam Brown一起开发了Pluribus,正在完成他的博士学位在卡内基梅隆大学计算机科学系担任Facebook AI的研究科学家。“到目前为止,战略推理中的超人AI里程碑仅限于两方竞争。在如此复杂的游戏中击败其他五名玩家的能力为使用AI解决各种各样的现实问题开辟了新的机会。”

去年加入Facebook AI的布朗表示,“玩六人游戏而不是直接面对,需要对人工智能如何制定其游戏策略进行根本改变。”“我们对其表现感到高兴,并相信一些Pluribus的比赛策略甚至可能会改变职业选手的比赛方式。”

Pluribus的算法在其策略中创造了一些令人惊讶的特征。例如,大多数人类玩家避免“下注” - 也就是说,通过一个电话结束一轮,然后通过下注开始下一轮。它被视为一种通常没有战略意义的弱势举动。但是Pluribus比其击败的专业人士更频繁地下注。

“它的主要优势在于它能够运用混合策略,”Elias上周为2019年世界扑克锦标赛主赛事做准备时表示。“这与人类试图做的事情是一样的。这是人类的执行问题 - 以完全随机的方式做到这一点并且始终这样做。大多数人都做不到。”

埃利亚斯表示,Pluribus在具有统计意义的情况下取得了稳固的胜利,尤其令人印象深刻。“机器人不仅仅是在对抗一些中间道路的职业选手。它正在扮演一些世界上最好的球员。”

Michael“Gags”Gagliano在职业生涯中获得了近200万美元的收入,他还与Pluribus竞争。

Gagliano说:“与扑克机器人对战并看到它选择的一些策略令人难以置信。”“人类根本没有制作过几部戏剧,特别是与它的赌注大小有关.Bots / AI是扑克演变的重要组成部分,在迈向这一大步的第一手经验真是太棒了。未来。”

Sandholm领导了一个研究计算机扑克的研究团队超过16年。他和布朗早些时候开发了Libratus,两年前果断地击败了四名扑克职业玩家,共同参加了120,000手单挑无限制德州扑克,这是一款双人版本的游戏。

国际象棋和围棋等游戏长期以来一直是人工智能研究的里程碑。在那些游戏中,所有玩家都知道游戏板和所有棋子的状态。但扑克是一个更大的挑战,因为它是一个不完整的信息游戏;玩家无法确定哪些牌在玩,而对手可以并且会诈唬。这使得它既是一个更严峻的AI挑战,也与涉及多方和缺少信息的许多现实问题更加相关。

所有在双人游戏中表现出超人技能的AI都是通过近似所谓的纳什均衡来实现的。以已故的卡内基梅隆校友和诺贝尔奖获得者约翰福布斯纳什小命名,纳什均衡是一对策略(每个球员一个),只要其他球员的策略保持不变,任何球员都不能从改变策略中受益。虽然人工智能的策略只能保证结果不比平局更差,但如果AI的对手犯了错误的计算且无法维持均衡,那么AI就会取得胜利。

在有两个以上球员的比赛中,打纳什均衡可能是一种失败的策略。因此,Pluribus摒弃了成功的理论保证,并制定了战略,使其能够始终如一地击败对手。

Pluribus首先通过打出六个副本来计算“蓝图”策略,这足以进行第一轮下注。从那时起,Pluribus对游戏的细粒度抽象中的可能移动进行了更详细的搜索。它会向前看几个动作,但不要一直向前看到游戏结束,这在计算上是令人望而却步的。有限前瞻搜索是完美信息游戏中的标准方法,但在不完美信息游戏中极具挑战性。一种新的有限前瞻搜索算法是使Pluribus实现超人多玩家扑克的主要突破。

具体来说,搜索是有限前瞻子博弈的不完美信息游戏解决方案。在那个子博弈的叶子上,AI考虑了五个可能的延续策略,每个对手和自己可能会在剩下的比赛中采用。可能的延续策略的数量要大得多,但研究人员发现他们的算法只需要考虑每个叶子的每个玩家的五个延续策略来计算强大,平衡的整体策略。

Pluribus也试图变得不可预测。例如,如果AI拥有最好的牌,投注将是有意义的,但如果AI只有在拥有最好的牌时下注,对手才会很快接受。因此,Pluribus会计算它如何在它可能拥有的每一只可能的牌中动作,然后计算一种在所有这些可能性之间取得平衡的策略。

虽然扑克是一个非常复杂的游戏,但Pluribus有效地利用了计算。已经在游戏中实现最近里程碑的AI已经使用了大量的GPU服务器和/或农场;Libratus使用了大约1500万个核心小时来制定策略,并且在实时游戏中使用了1,400个CPU核心。Pluribus在8天内仅使用12,400个核心小时计算了其蓝图策略,并且在实时播放期间仅使用了28个核心。