人机大战再上演,玩德扑的“阿尔法狗”来了

来自:梁风
时间:2017-01-12 14:43:35
分享:
米么信息 米么信息 米么信息
在Master“围剿”围棋顶尖高手之后,人工智能又盯上了德州扑克。这一次出场的选手是来自卡内基梅隆大学(CMU)开发的人工智能选手“Libratus”。

在Master“围剿”围棋顶尖高手之后,人工智能又盯上了德州扑克。这一次出场的选手是来自卡内基梅隆大学(CMU)开发的人工智能选手“Libratus”。

从美国时间1月11日开始,一场名为“大脑对战人工智能:加大赌注”(Brains vs. Artificial Intelligence: Upping the Ante)的巡回赛,将在匹兹堡的河流(Rivers Casino)赌场进行,Libratus将和4位人类顶尖职业选手展开对决。四名职业选手分别是Jason Lee、Dong Kim、Daniel McAulay和Jimmy Chou。

赛程为期20天,总共将对战12万手牌,无限下注,获胜者将获得20万美元的奖金。

与之前的AlphaGo战胜李世石,Master横扫60位顶尖选手的围棋不同,德州扑克是一种不公开、信息不对称的游戏,每个选手都只能在看到自己的手牌。也就是说这是一场非完美信息对称游戏。

此前,人类已经在有限下注的德扑当中战胜过人类。不过,在有限下注的游戏中,全部的决策点(decision points)只有不到10的14次方个。而一对一无限注中包含10的160次方个决策点(decision points)。

不过,在CMU在宣布Libratus的比赛之前,有一件事多少抢了Libratus的风头。

上周,著名的论文网站 Arxiv 出现一篇题为《DeepStack:无限下注扑克里的专家级人工智能》(DeepStack: Expert-Level Artificial Intelligence in No-Limit Poker)的论文,作者是来自加拿大Alberta大学、捷克Charles大学、布拉格捷克理工大学的研究人员。DeepStack称为第一个在限下注德扑中获胜的人工智能程序。

研究者称,在一项有数十名参赛者进行的44000手扑克的比赛中,DeepStack 成为第一个在无限注德州扑克中击败职业扑克玩家的计算机程序。

不过,虽然DeepStack占据了先发优势,可是因为是以论文的形式呈现,引发的关注度就要逊色一些。从2016年11月7日到12月12日共计4周的时间里,来自17个国家的33名选手跟 DeepStack 进行了较量,比赛在线上举行,共计进行了44000手。由于在线上进行,一个选手最多可以同时玩四局。排名前三(以AIVAT计)的选手分别获得5000加元、2500加元和1250加元的奖励。

而CMU的Libratus走的是阿尔法狗的路数,公开透明,把地点直接设在赌场当中,奖金也丰厚得多,获胜者将摘得20万美金。12万手的交锋相当于前者近三倍,从统计学上也更有说服力。而且,参与的选手也更有分量,有专家质疑DeepStack的对战选手中没有顶级高手,但是Libratus对战的选手则都是世界顶级选手。

然而在决策机制上,Libratus却又与阿尔法狗大相径庭。据报道,由于德州扑克是信息不对称的博弈,因此Libratus采用的是“纳什均衡”策略,通过平衡风险与收益来决定自己的下一步。纳什均衡追求的是最安全而不是最极致的利益。

纳什均衡的经典案例就是“囚徒困境”。1950年,数学家塔克任斯坦福大学客座教授时讲过这故事。

假设有两个小偷A和B联合犯事、私入民宅被警察抓住。警方将两人分别置于不同的两个房间内进行审讯,对每一个犯罪嫌疑人,警方给出的政策是:

  1. 如果你俩都坦白罪行,交出脏物,都会因盗窃罪被判8年。

  2. 如果你的同伙坦白了而是你抵赖了,你将会以妨碍公务罪加刑2年,而你的同伙因举报有功被减刑8年,立即释放。

  3. 如果你俩都不坦白,则警方因证据不足不能判偷窃罪,但可以私入民宅罪将两人各判1年。

画个表格分析一下:

人机大战再上演,玩德扑的“阿尔法狗”来了

从这张表里可以看出,两人都不坦白是最好的结果。可问题是,警方把两人分开审讯,形成了“不完整信息博弈”。你无法保证你同伙的人品如何。这时如果你为了利益最大化,选择了不坦白,而你的同伙却把你出卖了,那你就成了最大的输家。这个时候纳什均衡的最佳选择就是,果断坦白。这样至少你会得到和你同伙一样的待遇,而你的同伙如果贪心,你就赚大了。

换句话说如果你遵循纳什均衡,最坏的结果是:和对手打了个平手。也就说,在这一策略当中,只要其他玩家的策略保持不变,单一玩家就无法通过变换策略获益。

反映到德扑上,如果Libratus每次的选择都能实现纳什均衡,那么结果很可能是:虽然在某些回合中,人类选手会占得上风。但是在12万手的交锋中,机器大概率会成为赢家。

值得一提的是,早在2015年时,CMU的AI程序Claudico就在无限下注的比赛中跟德扑顶尖高手交过手,共计进行了8万手。不过,在这一次比赛当中,AI程序被狂虐,排在倒数第二名。当时参与的选手有Bjorn Li、Doug Polk、Dong Kim、Jason Les。

需要指出的是,Dong Kim、Jason Lee在这一次比赛当中还会参加。在2015年的对战当中,他们分别排在第三和第五的位置。

在Claudico落败之后,它的设计者Sandholm依然相信,在未来人工智能将很快能够击败任何领域的顶尖人类玩家。经历一年半的闭关修炼之后,不知道这一次CMU的AI选手能不能一雪前耻?对于比赛的结果,你有什么看法,欢迎留言。


米么信息 米么信息 米么信息
分享文章至