A Unified Approach to Reinforcement Learning, Quantal Response Equilibria, and Two-Player Zero-Sum Games

要約

タイトル:強化学習、Quantal Response Equilibria、2人ゼロサムゲームに対する統合的アプローチ

要約:
-「Magnetic mirror descent」というアルゴリズムを開発し、ミラーディセントと非ユークリッドプロキシマル勾配アルゴリズムからインスピレーションを得た。
-磁気ミラーディセントは、均衡ソルバーとしての長所と、2人ゼロサムゲームにおける強化学習アプローチとしての良さを示している。
-磁気ミラーディセントの長所は、以下の通り。
1)ファーストオーダーフィードバックを持つ展開形ゲームにおいて、初めて線形収束を達成したQuantal Response Equilibriaソルバー。
2)表形式の設定でCFRと実証的に競合する結果を達成した初めての標準的な強化学習アルゴリズム。
3)セルフプレイディープ強化学習アルゴリズムとして、3×3 Dark HexおよびPhantom Tic-Tac-Toeにおいて有利なパフォーマンスを発揮した。

要約(オリジナル)

This work studies an algorithm, which we call magnetic mirror descent, that is inspired by mirror descent and the non-Euclidean proximal gradient algorithm. Our contribution is demonstrating the virtues of magnetic mirror descent as both an equilibrium solver and as an approach to reinforcement learning in two-player zero-sum games. These virtues include: 1) Being the first quantal response equilibria solver to achieve linear convergence for extensive-form games with first order feedback; 2) Being the first standard reinforcement learning algorithm to achieve empirically competitive results with CFR in tabular settings; 3) Achieving favorable performance in 3×3 Dark Hex and Phantom Tic-Tac-Toe as a self-play deep reinforcement learning algorithm.

arxiv情報

著者 Samuel Sokota,Ryan D’Orazio,J. Zico Kolter,Nicolas Loizou,Marc Lanctot,Ioannis Mitliagkas,Noam Brown,Christian Kroer
発行日 2023-04-11 17:50:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.GT, cs.LG パーマリンク