要約
政策勾配法は、反復収束、確率的軌道フィードバックの効率的利用、重要度サンプリング補正の理論的回避といった望ましい性質を兼ね備えているため、シングルエージェント強化学習ツールボックスの定番となっている。しかしながら、マルチエージェントの不完全情報設定(広範形ゲーム)において、理論的な保証を保ちつつ、同じ望みを保証できるかどうかはまだ不明である。その代わりに,広範形ゲームのための健全な方法は,(Q値とは対照的に)反事実値を近似することに依存しており,これは政策勾配の方法論とは相容れない.本稿では、2人零和不完全情報広範形ゲーム(EFG)において、政策勾配が安全に使えるかどうかを調べる。その結果、政策勾配法がセルフプレイにおける正則化ナッシュ均衡への最良反復収束を証明できることを初めて示す。
要約(オリジナル)
Policy gradient methods have become a staple of any single-agent reinforcement learning toolbox, due to their combination of desirable properties: iterate convergence, efficient use of stochastic trajectory feedback, and theoretically-sound avoidance of importance sampling corrections. In multi-agent imperfect-information settings (extensive-form games), however, it is still unknown whether the same desiderata can be guaranteed while retaining theoretical guarantees. Instead, sound methods for extensive-form games rely on approximating counterfactual values (as opposed to Q values), which are incompatible with policy gradient methodologies. In this paper, we investigate whether policy gradient can be safely used in two-player zero-sum imperfect-information extensive-form games (EFGs). We establish positive results, showing for the first time that a policy gradient method leads to provable best-iterate convergence to a regularized Nash equilibrium in self-play.
arxiv情報
著者 | Mingyang Liu,Gabriele Farina,Asuman Ozdaglar |
発行日 | 2024-08-01 17:54:01+00:00 |
arxivサイト | arxiv_id(pdf) |