要約
本論文では、時変する凸凹2人ゲームの連続を含むオンライン鞍点問題に焦点を当てる。環境の非定常性を考慮し、アルゴリズム設計のための性能指標として、双対性ギャップと動的ナッシュ均衡後悔を採用する。我々は近接点法の3つのバリエーション、すなわちオンライン近接点法(OPPM)、最適化OPPM(OptOPPM)、複数予測子を用いたOptOPPMを提案する。各アルゴリズムは双対性ギャップと動的ナッシュ均衡の後悔の両方に上限を保証し、双対性ギャップに対して測定した場合に最適に近い結果を得る。特に、定常的なペイオフ関数列のようなある種の良性環境において、これらのアルゴリズムはほぼ一定の計量境界を維持する。実験結果はこれらのアルゴリズムの有効性をさらに検証する。最後に、本稿では動的ナッシュ均衡後悔を性能指標として用いることに伴う潜在的な信頼性の懸念について議論する。
要約(オリジナル)
This paper focuses on the online saddle point problem, which involves a sequence of two-player time-varying convex-concave games. Considering the nonstationarity of the environment, we adopt the duality gap and the dynamic Nash equilibrium regret as performance metrics for algorithm design. We present three variants of the proximal point method: the Online Proximal Point Method~(OPPM), the Optimistic OPPM~(OptOPPM), and the OptOPPM with multiple predictors. Each algorithm guarantees upper bounds for both the duality gap and dynamic Nash equilibrium regret, achieving near-optimality when measured against the duality gap. Specifically, in certain benign environments, such as sequences of stationary payoff functions, these algorithms maintain a nearly constant metric bound. Experimental results further validate the effectiveness of these algorithms. Lastly, this paper discusses potential reliability concerns associated with using dynamic Nash equilibrium regret as a performance metric.
arxiv情報
著者 | Qing-xin Meng,Jian-wei Liu |
発行日 | 2024-07-05 15:40:15+00:00 |
arxivサイト | arxiv_id(pdf) |