鸡拐信息网

Science封面重磅:CMU、Facebook联合打造“赌神”AI,六人德扑击败人类

0x251C新情报报告编辑:小秦[新知源导报]CMU和Facebook联合打造了最强大的德州扑克AI“Pluribus”,在六人德州扑克的复杂游戏中击败人类顶尖玩家。今天,《科学》杂志以一个大封面,详细介绍了普卢里巴斯的策略。

不久前,一个叫“Pluribus”的人工智能扑克机器人在六人无限制的复杂游戏中压垮了人类专业人士!

这是人工智能首次在一个有两个以上玩家的复杂游戏中击败人类顶级玩家。

“pluribus”是cmu和facebook创造的德州最强大的hold'em人工智能。重点解决了多人环境下的非零和博弈和隐藏信息推理问题。这是这一领域的重大突破。

今天,《科学》杂志的封面上刊登了“普卢里巴斯”的论文!

来自cmu和facebook ai的noam brown和tuomas sandholm教授在论文中详细解释了pluribus的策略。

作者说,扑克一直是一个具有挑战性的问题,人工智能在此类基准测试中的成功仅限于两人参与的游戏。然而,传统上玩扑克的人不止两个。多人扑克是公认的人工智能里程碑。

“普卢里巴斯”人工智能在6人无限制音符中显示出比顶级人类专业玩家更强大的技能。

接下来,辛致远带来了本文的解读。点击文章末尾的链接可以查看完整的论文。

基于mccfr的“蓝图”战略

三人或三人以上的游戏对游戏理论构成了挑战。对于两个玩家的零和游戏,有一种策略是没有玩家可以通过切换到不同的策略来提高他们的机会。这种所谓的纳什均衡被认为是游戏的解决方案。

但对于多人游戏,预期的奖励可能会根据纳什均衡而有所不同。保证收敛纳什均衡的快速算法,例如虚拟抑制最小化算法(CFR),可能在多人游戏中失败。尽管如此,CFR仍然在一些多人游戏中表现出良好的体验。

Pluribus首先通过自我游戏学习常用技巧,我们将其称为“蓝图”策略。

然后,在实际游戏中,它根据游戏的当前状态计算实时策略,以优化蓝图策略。 Pluribus程序通过名为Monte Carlo CFR(MCCFR)的CFR变体学习蓝图策略,并进行了一些改进。

Pluribus反复模拟所有玩家使用相同策略的扑克牌;在每只手之后,它递归地检查每个决策并评估决策的预期结果与可能在相同情况下选择的其他操作相比较。

为了提高Pluribus中MCCFR算法的效率,作者在训练的早期阶段引入了线性加权贴现,并在训练后期战略性地修正了负面后悔行为。

系统中最复杂的部分是实时策略组件。为了处理不完美的信息,Pluribus执行嵌套搜索,该搜索保持搜索树的根节点和每个玩家持有的卡的根节点的概率分布,前提是所有玩家使用相同(已知)策略。

为了有效地评估叶节点,Pluribus考虑了蓝图策略的四种不同变体。

在抽象机制中,Pluribus通过将类似的情况打包在一起来减少关于是否呼叫,加注或折叠的决策点的数量。使用蒙特卡洛虚拟抱歉最小化(MCCFR)将扑克游戏中树搜索的复杂性从棘手的问题降低到可解决的问题。

真实游戏

Pluribus需要为每个场景提供动作(调用,加注或弃牌)。

抽象游戏

类似的程序,如高卡9和高卡10在一起。

摘要策略

Pluribus使用MCCFR通过操作将每个桶映射到分布。

真正的战略

每个方案都根据其存储桶的抽象策略映射到操作的分布。

对于大型和复杂的游戏,可以使用状态和动作的抽象来抑制搜索树的增长。这对于完整的六人无限德州扑克游戏来说是必要的,因为它太复杂而无法直接搜索。

相反,如上图所示,Pluribus模拟了一个更简单的游戏版本,它结合了类似的决策点并消除了一些操作。

“赌博上帝”人工智能训练只需144美元

最后,Pluribus的蓝图策略在64核服务器上计算了8天,总共使用了12,400个CPU核心小时和不到512 GB的内存。这需要大约144美元,具体取决于当前的云计算费用。

这与使用大量服务器和/或GPU集群的所有其他最近的超级AI里程碑游戏形成鲜明对比。更多的内存和计算可以支持更精细的蓝图,这将带来更好的性能,但也会导致Pluribus在实时搜索中使用更多内存或更慢。

研究人员设定蓝图策略抽象的大小,以允许Pluribus在不超过128GB内存的机器上实时运行,同时将压缩形式的蓝图策略存储在内存中。

由于无限德州扑克的规模和复杂性,整个游戏的蓝图策略必须是粗粒度的。 Pluribus仅在第一轮投注(四个投注)中运用此蓝图策略,其中决策点的数量足够小,蓝图策略不能使用信息抽象,并且在操作抽象中做了大量工作。

在第一轮之后(即使在第一轮中,如果对手选择的赌注大小与蓝图动作抽象中的大小完全不同),Pluribus将执行实时搜索以确定更好,更精细的策略。现在的情况。

结论

自我游戏的形式与搜索的形式相结合,在完整信息的双人零和游戏中取得了许多令人瞩目的成功。但是,现实世界中的大多数战略互动都包含隐藏的信息和两个以上的参与者。这使得问题在理论和实践上非常不同。

为多人游戏开发超级AI是该领域公认的里程碑。在本文中,我们描述了Pluribus,一种在六人无限注德州扑克中击败人类职业选手的AI。

Pluribus的成功表明,尽管多人游戏的性能缺乏已知的强大理论保证,但仍然存在大规模,复杂的多人游戏不完整信息设置,在这种情况下,精心构建的自我游戏搜索算法可以产生超越人类的策略。

论文地址:

——