要約
モンテカルロ木探索を強化学習と組み合わせると、事前のドメイン知識がほとんどまたはまったくなくても、チェス、将棋、囲碁などのゲームで人間のグランドマスターを上回るパフォーマンスを示すことが示されました。
ただし、ほとんどの古典的な使用例では、最大 2 人のプレイヤーしか機能しません。
検索を任意の数のプレイヤーに拡張すると、特に長期にわたって意思決定を計画する必要がある場合、計算上の課題が生じます。
この研究では、総和マルチプレイヤー ゲームを、他のエージェントが与えられた対戦相手モデルに従って行動することを考慮したシングル プレイヤーおよび 2 プレイヤー ゲームに変換する手法を研究します。
評価では、部分的な観測可能性、長期にわたる期間、およびまばらな報酬を伴う、困難なポマーマン環境に焦点を当てます。
私たちの検索方法と組み合わせて、ヒューリスティックとセルフプレイを使用して対戦相手のモデリングの現象を調査します。
全体として、教師あり学習と強化学習の両方の設定において、マルチプレイヤー検索バリアントの有効性を実証しました。
要約(オリジナル)
In combination with Reinforcement Learning, Monte-Carlo Tree Search has shown to outperform human grandmasters in games such as Chess, Shogi and Go with little to no prior domain knowledge. However, most classical use cases only feature up to two players. Scaling the search to an arbitrary number of players presents a computational challenge, especially if decisions have to be planned over a longer time horizon. In this work, we investigate techniques that transform general-sum multiplayer games into single-player and two-player games that consider other agents to act according to given opponent models. For our evaluation, we focus on the challenging Pommerman environment which involves partial observability, a long time horizon and sparse rewards. In combination with our search methods, we investigate the phenomena of opponent modeling using heuristics and self-play. Overall, we demonstrate the effectiveness of our multiplayer search variants both in a supervised learning and reinforcement learning setting.
arxiv情報
| 著者 | Jannis Weil,Johannes Czech,Tobias Meuser,Kristian Kersting | 
| 発行日 | 2023-05-22 16:39:20+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
