在预印服务器Arxiv.org上发表的apaper中,Alphabet‘sDeepMind的科学家提出了一个新的框架,该框架学习了对多种游戏中玩家的近似最佳响应。 他们声称,在一些游戏中,包括国际象棋、围棋和德州扑克,它对“最坏的对手”-也就是说,那些不擅长,但至少按照规则玩,并实际完成游戏的玩家-都取得了很高的表现。

深度思维首席执行官Demis Hassabis经常断言,游戏是开发算法的一个方便的证明场,可以转化为现实世界来解决具有挑战性的问题。 这样的新框架可以为人工综合智能(AGI)奠定基础,人工智能是人工智能的圣杯-一个决策人工智能系统,它不仅自动完成平凡、重复的企业任务,如数据输入,而且还能解释其环境。 这是其他研究机构的长期目标,比如开放人工智能。

对球员的表现水平被称为可开发性。 计算可开发性通常是计算密集型的,因为玩家可能采取的行动数量是如此之大。 例如,德克萨斯Hold‘em的一个变体-头向上限制德州Hold’em-大约有1014个决策点,而Go大约有10170个。 一种解决这一问题的方法是使用一种策略,利用强化学习-一种人工智能训练技术,刺激软件代理通过系统奖励来完成目标-来计算最佳响应。

深度思维研究人员提出的框架,他们称之为近似最佳响应信息状态蒙特卡罗树搜索(ABRIS-MCTS),在信息状态的基础上近似一个精确的最佳响应。 框架内的演员遵循一种算法来玩游戏,而学习者则从各种游戏结果中获得信息来训练一种策略。 直观地说,ABRIS-MCTS试图学习一种策略,当剥削者被给予对对手策略的无限访问时,它可以创建一个有效的和利用的对抗策略;它模拟如果有人训练多年来剥削对手会发生什么。