要約
我々は、ゲーム(連続・有限の両方)における学習の長期的挙動を分析するための柔軟な確率的近似の枠組みを開発する。提案する分析テンプレートは、勾配に基づく方法、有限ゲームにおける学習のための指数・乗法的重みアルゴリズム、上記の楽観的・バンディット変種など、一般的な学習アルゴリズムを幅広く取り込んでいる。これらのアルゴリズムの統合的な見方を提供することに加え、我々のフレームワークにより、連続ゲームと有限ゲームの両方において、漸近的かつ有限時間でのいくつかの新しい収束結果を得ることができる。具体的には、高確率で引き合うナッシュ均衡のクラスと行動プロファイルの集合を特定するための様々な基準を提供し、また、厳密均衡とシャープ均衡を含むゲーム理論的性質であり、有限時間で収束に導く首尾一貫性の概念を導入する。重要なことは、我々の分析が、オラクルベースの方法と、ペイオフベースのバンディット法の両方に適用できることである。
要約(オリジナル)
We develop a flexible stochastic approximation framework for analyzing the long-run behavior of learning in games (both continuous and finite). The proposed analysis template incorporates a wide array of popular learning algorithms, including gradient-based methods, the exponential/multiplicative weights algorithm for learning in finite games, optimistic and bandit variants of the above, etc. In addition to providing an integrated view of these algorithms, our framework further allows us to obtain several new convergence results, both asymptotic and in finite time, in both continuous and finite games. Specifically, we provide a range of criteria for identifying classes of Nash equilibria and sets of action profiles that are attracting with high probability, and we also introduce the notion of coherence, a game-theoretic property that includes strict and sharp equilibria, and which leads to convergence in finite time. Importantly, our analysis applies to both oracle-based and bandit, payoff-based methods – that is, when players only observe their realized payoffs.
arxiv情報
著者 | Panayotis Mertikopoulos,Ya-Ping Hsieh,Volkan Cevher |
発行日 | 2023-07-03 14:51:31+00:00 |
arxivサイト | arxiv_id(pdf) |