人机大战再上演，玩德扑的“阿尔法狗”来了-米么信息

在Master“围剿”围棋顶尖高手之后，人工智能又盯上了德州扑克。这一次出场的选手是来自卡内基梅隆大学（CMU）开发的人工智能选手“Libratus”。

从美国时间1月11日开始，一场名为“大脑对战人工智能：加大赌注”（Brains vs. Artificial Intelligence: Upping the Ante）的巡回赛，将在匹兹堡的河流（Rivers Casino）赌场进行，Libratus将和4位人类顶尖职业选手展开对决。四名职业选手分别是Jason Lee、Dong Kim、Daniel McAulay和Jimmy Chou。

赛程为期20天，总共将对战12万手牌，无限下注，获胜者将获得20万美元的奖金。

与之前的AlphaGo战胜李世石，Master横扫60位顶尖选手的围棋不同，德州扑克是一种不公开、信息不对称的游戏，每个选手都只能在看到自己的手牌。也就是说这是一场非完美信息对称游戏。

此前，人类已经在有限下注的德扑当中战胜过人类。不过，在有限下注的游戏中，全部的决策点（decision points）只有不到10的14次方个。而一对一无限注中包含10的160次方个决策点（decision points）。

不过，在CMU在宣布Libratus的比赛之前，有一件事多少抢了Libratus的风头。

上周，著名的论文网站 Arxiv 出现一篇题为《DeepStack：无限下注扑克里的专家级人工智能》（DeepStack: Expert-Level Artificial Intelligence in No-Limit Poker）的论文，作者是来自加拿大Alberta大学、捷克Charles大学、布拉格捷克理工大学的研究人员。DeepStack称为第一个在限下注德扑中获胜的人工智能程序。

研究者称，在一项有数十名参赛者进行的44000手扑克的比赛中，DeepStack 成为第一个在无限注德州扑克中击败职业扑克玩家的计算机程序。

不过，虽然DeepStack占据了先发优势，可是因为是以论文的形式呈现，引发的关注度就要逊色一些。从2016年11月7日到12月12日共计4周的时间里，来自17个国家的33名选手跟 DeepStack 进行了较量，比赛在线上举行，共计进行了44000手。由于在线上进行，一个选手最多可以同时玩四局。排名前三（以AIVAT计）的选手分别获得5000加元、2500加元和1250加元的奖励。

而CMU的Libratus走的是阿尔法狗的路数，公开透明，把地点直接设在赌场当中，奖金也丰厚得多，获胜者将摘得20万美金。12万手的交锋相当于前者近三倍，从统计学上也更有说服力。而且，参与的选手也更有分量，有专家质疑DeepStack的对战选手中没有顶级高手，但是Libratus对战的选手则都是世界顶级选手。

然而在决策机制上，Libratus却又与阿尔法狗大相径庭。据报道，由于德州扑克是信息不对称的博弈，因此Libratus采用的是“纳什均衡”策略，通过平衡风险与收益来决定自己的下一步。纳什均衡追求的是最安全而不是最极致的利益。

纳什均衡的经典案例就是“囚徒困境”。1950年，数学家塔克任斯坦福大学客座教授时讲过这故事。

假设有两个小偷A和B联合犯事、私入民宅被警察抓住。警方将两人分别置于不同的两个房间内进行审讯，对每一个犯罪嫌疑人，警方给出的政策是：

如果你俩都坦白罪行，交出脏物，都会因盗窃罪被判8年。
如果你的同伙坦白了而是你抵赖了，你将会以妨碍公务罪加刑2年，而你的同伙因举报有功被减刑8年，立即释放。
如果你俩都不坦白，则警方因证据不足不能判偷窃罪，但可以私入民宅罪将两人各判1年。

画个表格分析一下：

从这张表里可以看出，两人都不坦白是最好的结果。可问题是，警方把两人分开审讯，形成了“不完整信息博弈”。你无法保证你同伙的人品如何。这时如果你为了利益最大化，选择了不坦白，而你的同伙却把你出卖了，那你就成了最大的输家。这个时候纳什均衡的最佳选择就是，果断坦白。这样至少你会得到和你同伙一样的待遇，而你的同伙如果贪心，你就赚大了。

换句话说如果你遵循纳什均衡，最坏的结果是：和对手打了个平手。也就说，在这一策略当中，只要其他玩家的策略保持不变，单一玩家就无法通过变换策略获益。

反映到德扑上，如果Libratus每次的选择都能实现纳什均衡，那么结果很可能是：虽然在某些回合中，人类选手会占得上风。但是在12万手的交锋中，机器大概率会成为赢家。

值得一提的是，早在2015年时，CMU的AI程序Claudico就在无限下注的比赛中跟德扑顶尖高手交过手，共计进行了8万手。不过，在这一次比赛当中，AI程序被狂虐，排在倒数第二名。当时参与的选手有Bjorn Li、Doug Polk、Dong Kim、Jason Les。

需要指出的是，Dong Kim、Jason Lee在这一次比赛当中还会参加。在2015年的对战当中，他们分别排在第三和第五的位置。

在Claudico落败之后，它的设计者Sandholm依然相信，在未来人工智能将很快能够击败任何领域的顶尖人类玩家。经历一年半的闭关修炼之后，不知道这一次CMU的AI选手能不能一雪前耻？对于比赛的结果，你有什么看法，欢迎留言。