了解POKERSNOWIE

技术核心和训练过程

PokerSnowie的扑克知识

PokerSnowie是一个基于人工智能的无限注德州扑克软件。它已经学会了玩各种各样的无限注德州扑克,从单挑到10人局,从小筹码局一直到非常深的筹码局(400个大盲注)。

PokerSnowie的根基

PokerSnowie的根基是人工神经网络。这些神经网络是基于生物学神经网络的数学模型,就像是人类大脑里神经网络一样。尽管生物学上还很难解释神经元在人脑里是如何工作的,学习(或认知)是如何发生的,但是一些原理已经可以用数学公式来表达,这直接导致了人工神经网络的建立。

人工神经网络的设想最先出现于1943年(Warren McCulloch and Walter Pitts提出),并且现如今很多人工神经网络的应用都非常成功。神经网络的使用已经渐渐地变成许多产业领域的标准了。然而,设计一个德州扑克的学习算法还是很有挑战。因为德州扑克是一个非常复杂的基于隐藏信息的多人博弈游戏。虽然在有限注德州扑克的单挑游戏中,已知电脑可以玩得和职业选手一样好,但是没有人能创造出一个强力的人工智能可以玩最流行(也是最复杂)的德州扑克版本:无限注多人圈桌游戏(No Limit full ring game )。随着PokerSnowie的问世,这个目标已被实现。

PokerSnowie 的初始化养成阶段

一开始,PokerSnowie 完全随机地去玩每一局。随着一手一手的牌玩过之后,那些获胜的下 注策略就会越来越强化,而那些不成功的行为方式也会被 AI 记住并越来越少。举个例子, 通常认为在河牌阶段只持有一个不大的高牌跟注是会输的,所以 PokerSnowie 用这种牌跟 注的情况应该会越来越少, 三条在 河牌跟注 基本都赢了,那么在这种情况下跟注的行为模式就会被加强。

很多人对于电脑也能学会一些“心理战术”非常吃惊,比如诈唬(bluff)。实际上,这是PokerSnowie习得的最初的几件事情之一。如果在某种特定场景下诈唬经常奏效,那么这种诈唬的行为方式就会被加强并且 在这种情况发生时 PokerSnowie也会更频繁地使用诈唬。

没有一点专业知识

PokerSnowie没有注入哪怕一丁点专业知识。这在AI训练初期被证明是个缺点:强如葫芦的手牌也会被PokerSnowie随机地去玩,甚至会弃牌。学会正确地玩四条或者同花顺则更加困难,因为遇到这种手牌的情况非常稀少。在这里,人类的认知方式和PokerSnowie的认知方式有一个巨大的不同:人类早就明白四条非常强,强到几乎能每次都赢。知道这点的人类会得出一个显然易见的结论:四条永远不该被弃掉。然而,PokerSnowie衡量一手自己不知道有多强并且还没有多少处理经验的牌就会很困难。它只会慢慢地调整玩牌策略到正确的方向。当然,神经网络学会怎么玩这种牌非常简单,只是需要一些时间而已。

相对地,给予PokerSnowie完全的自由度去学习怎么玩才能达到他认为的最好有着让人惊叹的优势。如果一个专家定义了一些玩牌的策略,那么那些策略就不会被PokerSnowie提升进步,甚至有可能专家的策略后来被证明是错的(也没办法纠正)。这种无专家的方法最美丽的地方在于PokerSnowie会变成一个比给他编程的人还好的扑克玩家,甚至比绝大多数的人类玩家都要出色!

PokerSnowie正走向最平衡的游戏策略

经历过最初的训练阶段,PokerSnowie 已经学会了基本的规则:烂手牌时弃牌,好手牌时跟 进, 通过 加注去诈唬 或 榨取价值。PokerSnowie 的玩牌策略已经和好的德州 扑克玩家一个水平了。但是,它的策略仍然非常的不平衡。在一些情况下,比如,它诈唬得 太频繁, 这个 可以导致它被一些有心的对手剥削,用相对较弱的手牌跟注或者进行加注 ,在长期对抗中, 这样的玩家会从 PokerSnowie 那里获得很多的收益。

训练的下一个也是最主要的阶段就是让平衡决策更加正确。PokerSnowie 不断地和 通过自我调整来最大化剥削 SNOWIE 为目的的代理进行对抗 。比如 PokerSnowie 诈唬得太少,那么代理就会跟注得更 少,于是 PokerSnowie 有好手牌时获利也会减少。如果 PokerSnowie 诈唬得太多,那么代理 也会更多地跟注和更激进地再加注(re-raise)。PokerSnowie 会通过不断地调整手牌范围去 防守代理的策略。这种适应性的实践和学习是一个不间断的过程, 以此来不断地提高 PokerSnowie 的 平衡 策略和实力,从而使得代理在对抗中越发难以找到 Pokersnowie 可被剥削的漏洞。

PokerSnowie会周期性地更新自己的AI大脑核心。这些版本的更新合并了在大型计算机群上训练得出的新的认知经验以及更精简的算法。最终的结果就是,所以这些持续性工作会让PokerSnowie给出更强的建议,适用的情况更普遍。

有关发布的所有主要AI细节信息可以参见 PokerSnowie的博客.

下一篇: 了解 PokerSnowie的缺陷