On the Convergence of No-Regret Learning Dynamics in Time-Varying Games

要約

ゲームでの学習に関する文献のほとんどは、根底にある繰り返されるゲームが時間の経過とともに変化しないという制限的な設定に焦点を当てています。
動的なマルチエージェント設定における後悔のない学習アルゴリズムの収束についてはほとんど知られていません。
この論文では、時間変動ゲームにおける楽観的勾配降下法 (OGD) の収束を特徴付けます。
私たちのフレームワークは、静的ゲームの既知の結果を包含し、一連のゲームの自然変動尺度にパラメーター化されたゼロサム ゲームにおける OGD の平衡ギャップの鋭い収束限界をもたらします。
さらに、各ゲームが複数回繰り返される限り、強い凹凸の下で改善された二次変動限界を確立します。
私たちの結果は、相関平衡の双線形定式化を介して時変一般和マルチプレイヤー ゲームにも適用されます。これは、メタ学習と洗練された変動依存のリグレス限界の取得に新たな意味を持ち、以前の論文で未解決のままの疑問に対処します。
最後に、フレームワークを活用して、静的なゲームにおける動的なリグレス保証に関する新しい洞察も提供します。

要約(オリジナル)

Most of the literature on learning in games has focused on the restrictive setting where the underlying repeated game does not change over time. Much less is known about the convergence of no-regret learning algorithms in dynamic multiagent settings. In this paper, we characterize the convergence of optimistic gradient descent (OGD) in time-varying games. Our framework yields sharp convergence bounds for the equilibrium gap of OGD in zero-sum games parameterized on natural variation measures of the sequence of games, subsuming known results for static games. Furthermore, we establish improved second-order variation bounds under strong convexity-concavity, as long as each game is repeated multiple times. Our results also apply to time-varying general-sum multi-player games via a bilinear formulation of correlated equilibria, which has novel implications for meta-learning and for obtaining refined variation-dependent regret bounds, addressing questions left open in prior papers. Finally, we leverage our framework to also provide new insights on dynamic regret guarantees in static games.

arxiv情報

著者 Ioannis Anagnostides,Ioannis Panageas,Gabriele Farina,Tuomas Sandholm
発行日 2023-10-18 16:43:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.GT, cs.LG パーマリンク