强化学习是实现系统的AI训练技术,能够击败世界扑克冠军并引导自动驾驶汽车,这并不是世界上最简单的事情。在游戏领域尤其如此,在该领域,尖端方法有时需要定制工具,而这些工具是不公开的。

幸运的是,这种情况正在改变。在最近在预印服务器Arxiv.org上发表的一篇论文中,Alphabet的DeepMind的研究人员描述了一种名为OpenSpiel的面向游戏的强化学习框架。它的核心是用于一般强化学习以及游戏中搜索和规划的研究环境和算法的集合,并带有用于分析学习动态和其他常见评估指标的工具。

研究人员写道:“ OpenSpiel的目的是在许多不同的游戏类型上促进通用的多智能体强化学习,这与通用的游戏玩法相似,但重点是学习而不是竞争形式。”研究人员写道。“我们希望OpenSpiel可以对游戏中的一般[强化学习]产生与Atari学习环境对单一代理[强化学习]类似的效果。”

OpenSpiel支持20多种单人和多人游戏类型,从合作和零和游戏(每位玩家的损失和收益均由对手的损失和收益平衡)到一般和单发游戏(其中的赌注)很高,但没有进一步的影响)和顺序游戏。除了严格的回合制游戏,拍卖游戏,矩阵游戏和同时移动游戏外,还有完善的游戏(在决策时,玩家会完全了解以前发生的所有事件)和不完善的信息游戏(其中同时做出决定)。

正如合著者所解释的那样,OpenSpiel是围绕两个主要设计标准构建的:简单性和简约性。为此,它使用参考实现而不是完全优化和高性能的代码,从而缩小了范围和广度。此外,它将相关性降至最低,从而最大程度地减少了安装占用空间,从而降低了出现兼容性问题的可能性。