要約
この研究では、ミラー降下と非ユークリッド近位勾配アルゴリズムに触発された、磁気ミラー降下と呼ばれるアルゴリズムを研究しています。
私たちの貢献は、平衡ソルバーとして、また 2 プレイヤーのゼロサム ゲームにおける強化学習へのアプローチとして、マグネティック ミラー ディセントの利点を実証することです。
これらの利点には次のものが含まれます。
2) 表形式の設定で CFR と経験的に競合する結果を達成する最初の標準的な強化学習アルゴリズムであること。
3) 3×3 Dark Hex と Phantom Tic-Tac-Toe で、セルフプレイの深層強化学習アルゴリズムとして良好なパフォーマンスを達成。
要約(オリジナル)
This work studies an algorithm, which we call magnetic mirror descent, that is inspired by mirror descent and the non-Euclidean proximal gradient algorithm. Our contribution is demonstrating the virtues of magnetic mirror descent as both an equilibrium solver and as an approach to reinforcement learning in two-player zero-sum games. These virtues include: 1) Being the first quantal response equilibria solver to achieve linear convergence for extensive-form games with first order feedback; 2) Being the first standard reinforcement learning algorithm to achieve empirically competitive results with CFR in tabular settings; 3) Achieving favorable performance in 3×3 Dark Hex and Phantom Tic-Tac-Toe as a self-play deep reinforcement learning algorithm.
arxiv情報
| 著者 | Samuel Sokota,Ryan D’Orazio,J. Zico Kolter,Nicolas Loizou,Marc Lanctot,Ioannis Mitliagkas,Noam Brown,Christian Kroer |
| 発行日 | 2023-03-02 17:37:59+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google