要約
セルフプレイは、学習アルゴリズムがそれ自体のコピーと対話することによって学習する、マルチエージェント システムにおける機械学習の手法です。
セルフプレイは学習用の大量のデータを生成するのに便利ですが、学習者がトレーニング後に直面するエージェントが、学習者がそれ自体と対話することで予期したものとは大きく異なる動作をする可能性があるという欠点があります。
2 プレイヤー定数ゲームの特殊なケースでは、ナッシュ均衡に達するセルフ プレイにより、トレーニング後のどんな対戦相手に対しても優れたパフォーマンスを発揮する戦略が生成されることが保証されます。
ただし、マルチプレイヤー ゲームにはそのような保証はありません。
我々は、2 人プレイの定数和ゲーム (定数和ポリマトリックス ゲームと呼ばれる) のセットにほぼ分解されるゲームでは、グローバル $\epsilon$-ナッシュ均衡が各サブゲームのナッシュ均衡から限りなく遠く離れている (サブゲームの安定性と呼ばれる) ことを示します。
、セルフプレイによって学習する外部後悔のないアルゴリズムは、限界のある脆弱性を備えた戦略を生成します。
私たちの結果は、広範なクラスのセルフプレイ アルゴリズムによって生成される戦略のパフォーマンス保証を可能にするマルチプレイヤー ゲームの構造的特性を初めて特定しました。
私たちは、Leduc ポーカーの実験を通して発見を実証します。
要約(オリジナル)
Self-play is a technique for machine learning in multi-agent systems where a learning algorithm learns by interacting with copies of itself. Self-play is useful for generating large quantities of data for learning, but has the drawback that the agents the learner will face post-training may have dramatically different behavior than the learner came to expect by interacting with itself. For the special case of two-player constant-sum games, self-play that reaches Nash equilibrium is guaranteed to produce strategies that perform well against any post-training opponent; however, no such guarantee exists for multiplayer games. We show that in games that approximately decompose into a set of two-player constant-sum games (called constant-sum polymatrix games) where global $\epsilon$-Nash equilibria are boundedly far from Nash equilibria in each subgame (called subgame stability), any no-external-regret algorithm that learns by self-play will produce a strategy with bounded vulnerability. For the first time, our results identify a structural property of multiplayer games that enable performance guarantees for the strategies produced by a broad class of self-play algorithms. We demonstrate our findings through experiments on Leduc poker.
arxiv情報
著者 | Revan MacQueen,James R. Wright |
発行日 | 2023-11-29 17:39:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google