Alternating Regret for Online Convex Optimization

要約

Cevher et al。(2024)による最近の研究は、2人のプレイヤーゲームで学習ダイナミクスを交互に行うことに動機付けられています。
連続ヘッジアルゴリズムが$ \ tilde {\ mathcal {o}}(d^{\ frac {2} {3}}}} {\ frac {1} {3}})$ noverial $ d-dimensional ofsobutionの後悔の後悔の後悔を交互にすることを示すことにより、この質問に答えます。
これは、凸型ゼロサムゲームのナッシュ平衡または凸型の2プレイヤーゼネラルゲームの粗い相関平衡を見つける代替学習ダイナミクスを意味することを示しています。
$ \ tilde {\ mathcal {o}}(d^{\ frac {2} {3}}/t^{\ frac {2} {3}})$。
時間の複雑さおよび/または寸法依存性をさらに向上させるために、凸型のコンジュゲートが3次の滑らかである正規者を備えた正規化された別の単純なアルゴリズムを提案します。
アルゴリズムを異なる正規者でインスタンス化し、たとえば、決定セットが$ \ ell_2 $ボールである場合、アルゴリズムは$ \ mathcal {o}}(t^{\ frac {2} {5}})$ $ \ frac {2} {5}}を達成することを示しています。
$ \ tilde {\ mathcal {o}}(t^{\ frac {1} {3}})$ bound for quadratic loses)。
私たちの結果を補完します。アルゴリズム固有の交互の後悔の下限を示すことで、やや驚くべき$ \ omega(\ sqrt {t})$下限を示して、交互の学習ダイナミクスに広く使用されている後悔の一致バリアントを含めます。

要約(オリジナル)

Motivated by alternating learning dynamics in two-player games, a recent work by Cevher et al.(2024) shows that $o(\sqrt{T})$ alternating regret is possible for any $T$-round adversarial Online Linear Optimization (OLO) problem, and left as an open question whether the same is true for general Online Convex Optimization (OCO). We answer this question in the affirmative by showing that the continuous Hedge algorithm achieves $\tilde{\mathcal{O}}(d^{\frac{2}{3}}T^{\frac{1}{3}})$ alternating regret for any adversarial $d$-dimensional OCO problems. We show that this implies an alternating learning dynamic that finds a Nash equilibrium for any convex-concave zero-sum games or a coarse correlated equilibrium for any convex two-player general-sum games at a rate of $\tilde{\mathcal{O}}(d^{\frac{2}{3}}/T^{\frac{2}{3}})$. To further improve the time complexity and/or the dimension dependence, we propose another simple algorithm, Follow-the-Regularized-Leader with a regularizer whose convex conjugate is 3rd-order smooth, for OCO with smooth and self-concordant loss functions (such as linear or quadratic losses). We instantiate our algorithm with different regularizers and show that, for example, when the decision set is the $\ell_2$ ball, our algorithm achieves $\tilde{\mathcal{O}}(T^{\frac{2}{5}})$ alternating regret with no dimension dependence (and a better $\tilde{\mathcal{O}}(T^{\frac{1}{3}})$ bound for quadratic losses). We complement our results by showing some algorithm-specific alternating regret lower bounds, including a somewhat surprising $\Omega(\sqrt{T})$ lower bound for a Regret Matching variant that is widely used in alternating learning dynamics.

arxiv情報

著者 Soumita Hait,Ping Li,Haipeng Luo,Mengxiao Zhang
発行日 2025-06-18 16:11:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク