Faster Rates for No-Regret Learning in General Games via Cautious Optimism

要約

$ o(n \ log^2 d \ log t)$を達成する最初の非結合学習アルゴリズムを確立します。$ n $はプレーヤーの数、$ d $は各プレイヤーが利用できるアクションの数、$ t $はゲームの補償数です。
結果は、$ o(n \、d \ log t)$の後悔と比較して、$ d $への依存を指数関数的に改善します。
t)$後悔[dfg21]。
私たちのアルゴリズムは、古典的な楽観的な乗算重みアップデート(OMWU)と、プレーヤーの学習プロセスをペースとする適応的で非音の学習率を組み合わせることで取得され、後悔が否定的になると慎重になります。

要約(オリジナル)

We establish the first uncoupled learning algorithm that attains $O(n \log^2 d \log T)$ per-player regret in multi-player general-sum games, where $n$ is the number of players, $d$ is the number of actions available to each player, and $T$ is the number of repetitions of the game. Our results exponentially improve the dependence on $d$ compared to the $O(n\, d \log T)$ regret attainable by Log-Regularized Lifted Optimistic FTRL [Far+22c], and also reduce the dependence on the number of iterations $T$ from $\log^4 T$ to $\log T$ compared to Optimistic Hedge, the previously well-studied algorithm with $O(n \log d \log^4 T)$ regret [DFG21]. Our algorithm is obtained by combining the classic Optimistic Multiplicative Weights Update (OMWU) with an adaptive, non-monotonic learning rate that paces the learning process of the players, making them more cautious when their regret becomes too negative.

arxiv情報

著者 Ashkan Soleymani,Georgios Piliouras,Gabriele Farina
発行日 2025-03-31 17:25:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.GT, cs.LG, math.OC パーマリンク