Generalized Bandit Regret Minimizer Framework in Imperfect Information Extensive-Form Game

要約

後悔最小化法は、2 人のプレーヤーのゼロ和不完全情報拡張形式ゲーム (IIEG) で近似ナッシュ均衡 (NE) を学習するための強力なツールです。
IIEG のダイナミクスがわからない、インタラクティブなバンディット フィードバック設定における問題を検討します。
一般に、インタラクティブな軌跡と到達した終端ノード値 $v(z^t)$ のみが明らかになります。
NE を学習するには、リグレス ミニマイザーは、フルフィードバック損失勾配 $\ell^t$ を $v(z^t)$ で推定し、リグレスを最小化する必要があります。
この論文では、この学習設定のための一般化されたフレームワークを提案します。
これは、バンディット リグレス最小化手法の設計とモジュール分析のための理論的枠組みを示しています。
私たちは、最新のバンディット リグロング最小化手法がフレームワークの特定のケースとして分析できることを示します。
このフレームワークに従って、近似 NE を学習するための新しい方法 SIX-OMD について説明します。
モデルフリーであり、既存の最良の収束率を $O(\sqrt{X B/T}+\sqrt{Y C/T})$ から $O(\sqrt{ M_{\mathcal{X) まで大幅に向上させます。
}}/T} +\sqrt{ M_{\mathcal{Y}}/T})$。
さらに、SIX-OMD は、サンプリングされた軌道に沿ってのみ現在の戦略と平均戦略の更新を実行する必要があるため、計算効率が高くなります。

要約(オリジナル)

Regret minimization methods are a powerful tool for learning approximate Nash equilibrium (NE) in two-player zero-sum imperfect information extensive-form games (IIEGs). We consider the problem in the interactive bandit-feedback setting where we don’t know the dynamics of the IIEG. In general, only the interactive trajectory and the reached terminal node value $v(z^t)$ are revealed. To learn NE, the regret minimizer is required to estimate the full-feedback loss gradient $\ell^t$ by $v(z^t)$ and minimize the regret. In this paper, we propose a generalized framework for this learning setting. It presents a theoretical framework for the design and the modular analysis of the bandit regret minimization methods. We demonstrate that the most recent bandit regret minimization methods can be analyzed as a particular case of our framework. Following this framework, we describe a novel method SIX-OMD to learn approximate NE. It is model-free and extremely improves the best existing convergence rate from the order of $O(\sqrt{X B/T}+\sqrt{Y C/T})$ to $O(\sqrt{ M_{\mathcal{X}}/T} +\sqrt{ M_{\mathcal{Y}}/T})$. Moreover, SIX-OMD is computationally efficient as it needs to perform the current strategy and average strategy updates only along the sampled trajectory.

arxiv情報

著者 Linjian Meng,Yang Gao
発行日 2023-08-18 14:16:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.GT, cs.LG パーマリンク