您好、欢迎来到现金彩票网!
当前位置:dafa888娱乐场 > 对抗模拟技术 >

40张图看懂扑克AI对抗人类30年历史

发布时间:2019-06-22 20:03 来源:未知 编辑:admin

  支持199IT发展可加入知识交流群(4000+用户),最有价值数据分享和讨论!

  2017年是AI在扑克上取得突破的一年,冷扑大师Libratus和DeepStack 相继完胜人类,实现对人类专业级玩家的超越,毫无疑问是里程碑式的突破。在AlphaGo和Master与人类专业棋手的PK光环下,扑克AI的研究稍显黯淡,但是,以解决不完美信息博弈为目标的扑克AI路径难度和重要性并不亚于围棋。在商业谈判、医疗健康、网络安全、拍卖等领域,这一技术有着不容忽视的应用价值。本文以信息图示的形式,为你介绍扑克AI的历史、技术原理、对战细节、AI 的优势等,了解冷扑大师的前世今生。

  2017年是AI在扑克上取得突破的一年,在AI的发展历史上,具有里程碑的意义。

  1月,卡耐基梅隆大学的 AI 程序在“一对一不限注”的扑克比赛中,击败了一组世界级的德州扑克职业选手。出乎所有人的意外,这一程序对人类专业扑克手的胜利几乎是压倒性的:14bb/h。

  (注,德州扑克中,线bb/h,你已经完全统治这个级别的桌子了,能打到5bb/h-10bb/h已经很不错了。线已经非常厉害了。)

  比赛一共打了12万手,最后 AI 程序赢得170万筹码,也就是约 1.7 万大盲注,接近 90 个买入。对职业扑克玩家来说,还好这不是真正的钱,虽然他们在这场比赛中溃不成军。团队里每个人都败给了机器。

  这个 AI 程序被称为 Libratus,它的开发者之一,CMU 博士生 Noam Brown 称它是“扑克AI的圣杯”。Libratus 是 Noam Brown 和 CMU 教授 Tuomas Sandholm 一起开发的,而它只是 CMU 研发的一系列扑克 AI 程序中最新的一个。此前,从来没有机器能在一对一不限注德州扑克游戏中击败世界级的人类职业玩家。

  根据 Brown 的说法,后续版本的 Libratus 还能有很大的提升空间,升级后的程序理论上能赢 50bb/h。

  而在惊人的 Libratus 之前,来自加拿大和捷克的几位计算机科学研究者近日在 arXiv 上贴出论文,介绍了一种用于不完美信息(例如扑克)的新算法,DeepStack 结合使用循环推理来处理信息不对称,使用分解将计算集中在相关的决策上,并且使用一种深度学习技术从单人游戏中自动学习的有关扑克任意状态的直觉形式。研究者在论文中称,在一项有数十名参赛者进行的44000手扑克的比赛中,DeepStack 成为第一个在一对一无限注德州扑克中击败职业扑克玩家的计算机程序。

  随后,Science以封面文章的方式,对这一AI 在不完美信息博弈中堪称里程碑式的突破进行了报道。

  扑克网站uk近日发布了一篇文章,以信息图的方式,完整地介绍了人类开发AI程序以对抗扑克玩家的里程,从1984年开始,我们已经在这一方向上探索了30多年,在2017年获得最值得骄傲的成功。冷扑大师“ Libratus” 和DeepStack 不仅仅意味着在扑克上的突破,更多的是深度学习和人工智能综合性的成就和技术高度。

  下文,我们将从历史、技术原理、对战细节、AI 的优势、扑克AI的延伸应用以及未来等多个方面,介绍以扑克为攻克的目标的这一人工智能突破路径。不完美信息博弈上,AI技术的成熟与应用,将会进一步扩展AI的应用边界,比如,在商业谈判、医疗健康、网络安全、拍卖等等领域得到广泛应用。

  1. 1984年,Mike Caro 创建的基础扑克AI软件Orac参加了WSOP的比赛。

  注:世界扑克大赛(World Series of Poker,简称WSOP)是世界上具有重要影响力的扑克锦标赛,每年在美国拉斯维加斯举办。此项赛事的起源可以追溯到1970年,当时奔尼·比尼恩(Benny Binion)邀请了六位知名扑克选手在马蹄铁赌场(Binions Horseshoe Casino)举办了第一届比赛,当时的冠军是由投票选出的。(来源:维基百科)

  2. 1997年,阿尔伯塔大学(UoA)发布了扑克AI Loki,专攻有限下注的德州扑克比赛。

  3. 2003年,扑克AI开发者开始从国际象棋方法论的模型中转移,寻找新的办法。

  4. 2005年,在Golden Palace举办了扑克机器人世界系列赛。

  6. 2008年,UoA的扑克机器人Polaris 6位人类玩家进行了一对一的无限下注竞赛,成绩为3胜2负一平。

  8. 2012年,拉斯维加斯Bellagio 赌场启动了2/4美元有限下注的机器人,每个人都能尝试与之进行对抗。

  9.2015年,有限下注的比赛以及被阿尔伯塔大学的扑克机器人Cepheus攻克。

  10. 2016年,在ACPC上出现了两个顶级的AI:1)前谷歌工程师Eric Jackson 开发的Slumbot,在WSOP上大赚一笔;2)CMU 博士生开发的“Act1”数年来在线上扑克对战中保持常胜。

  11. 2017年,阿尔伯塔大学开发的DeepStack击败了扑克专业玩家。同时,来自CMU的神秘AI也完胜最好的人类扑克玩家。

  Libratus 基于匹兹堡超级计算中心1500万小时核心计算制定自己的扑克策略。

  Libratus依赖于一个算法来计算策略,而非修正已经被写入程序的策略。

  Libratus每天都在分析自己的下法,并修正错误,每天都在进行不同的对战。

  Libratus会将自己的行动随机化,让对手不能确定自己是不是在bluffing。

  Libratus的算法不是专用于扑克的,还能够应用到任何的不完美信息情景中。

  Libratus三大模块。Libratus有三大模块,每一个都在执行不同的任务:

  Libratus:没有深度神经网络,从头开始学习规则,所运用的策略完全独立于人类玩家。

  其他AI:有深度神经网络,对旧的玩法进行分享以学习规则,所运用的策略不独立于人类玩家。

  在为期13天的比赛中,一共进行了8万手的比赛,下注的虚拟货币数量总额为1.7亿美元。

  2017年,UoA发布了DeepStack,专攻无限下注的德州扑克。DeepStack采用了深度神经网络,来模仿人类在围棋游戏中的“直觉”和学习能力。DeepStack将游戏的场景“压缩”到10的14次方,由此一来,两个玩家的对抗产生的可能的游戏场景就是10的160次方。

  结果:整个研究涉及了几十名参与者,包含了44万手扑克。DeepStack的平均获胜率是450 mbb/g,在专业扑克玩家中,50 mbb/g的赢率就可以称得上是优秀了。与DeepStack对战的都是优秀的玩家,但是,它还没有与顶级玩家过招。

  2017年,CMU的冷扑大师 Libratus 横空出世,创造了扑克AI与人类玩家对抗最为压倒性的胜利。

  2017年1月,四位人类最顶级的玩家与Libratus 进行对抗,一共进行了12万手的比赛。

  Libratus的赢率为14.7 bb 每一百手,这对AI来说是一个非常优秀的结果了。

  所有的四名人类玩家都输掉了自己的3万手对抗,等于输掉了176万6250美元。

http://forrealweb.com/duikangmonijishu/112.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有