要約
【タイトル】
不完全情報拡張形ゲームのほぼ最適な学習
【要約】
この論文は、バンディットフィードバックから不完全情報拡張形ゲームを学習するためのほぼ最適なアルゴリズムを設計するというオープンな問題を解決します。私たちは、二人零和ゲームにおいて、$X,Y$は情報集合の数、$A,B$は二人のプレイヤーのアクションの数で、$\tilde{\mathcal{O}}((XA+YB)/\epsilon ^2)$のプレイエピソードだけで、$\epsilon$-近似的なナッシュ均衡を見つけることができる最初のアルゴリズム群を提供します。これは、$\tilde{\mathcal{O}}((X^2A+Y^2B)/\epsilon ^2)$の最もよく知られたサンプル複雑性よりも、$\tilde{\mathcal{O}}(\max\{X, Y\})$の要素で改善され、情報理論的下限と一致します。私たちは、2つの新しいアルゴリズム:バランスオンラインミラーディセントとバランスカウンターファクタルリグレット最小化により、このサンプル複雑性を達成しています。両方のアルゴリズムは、クラシカルな対応物に\emph{バランス探索方針}を統合する新しいアプローチに依存しています。私たちは、多プレイヤー汎用和ゲームにおけるCoarse Correlated Equilibriaの学習結果を拡張しています。
要約(オリジナル)
This paper resolves the open question of designing near-optimal algorithms for learning imperfect-information extensive-form games from bandit feedback. We present the first line of algorithms that require only $\widetilde{\mathcal{O}}((XA+YB)/\varepsilon^2)$ episodes of play to find an $\varepsilon$-approximate Nash equilibrium in two-player zero-sum games, where $X,Y$ are the number of information sets and $A,B$ are the number of actions for the two players. This improves upon the best known sample complexity of $\widetilde{\mathcal{O}}((X^2A+Y^2B)/\varepsilon^2)$ by a factor of $\widetilde{\mathcal{O}}(\max\{X, Y\})$, and matches the information-theoretic lower bound up to logarithmic factors. We achieve this sample complexity by two new algorithms: Balanced Online Mirror Descent, and Balanced Counterfactual Regret Minimization. Both algorithms rely on novel approaches of integrating \emph{balanced exploration policies} into their classical counterparts. We also extend our results to learning Coarse Correlated Equilibria in multi-player general-sum games.
arxiv情報
著者 | Yu Bai,Chi Jin,Song Mei,Tiancheng Yu |
発行日 | 2023-03-30 23:15:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI