No-Regret Learning in Games with Noisy Feedback: Faster Rates and Adaptivity via Learning Rate Separation

要約

学習者が他の最適化エージェントとの継続的なゲームに関与している場合の後悔の最小化の問題を調べます。この場合、すべてのプレーヤーが後悔のないアルゴリズムに従うと、完全に敵対的な環境と比較して、後悔を大幅に減らすことができます。
この問題は、変分的に安定したゲーム (すべての凸凹ゲームと単調ゲームを含む連続ゲームのクラス) のコンテキストで、またプレーヤーが個々のペイオフ勾配のノイズの多い推定値にしかアクセスできない場合に研究されます。
ノイズが相加的である場合、ゲーム理論と純粋に敵対的な設定は、同様の後悔の保証を享受します。
ただし、ノイズが乗法的である場合、学習者は実際に一定の後悔を達成できることを示しています。
この高速化は、学習率分離を伴う楽観的勾配スキームによって達成されます。つまり、メソッドの外挿と更新ステップは、ノイズ プロファイルに応じて異なるスケジュールに調整されます。
その後、繊細なハイパーパラメータ調整の必要性を排除するために、ゲームまたはノイズプロファイルの知識なしで動作しながら、適応されていない対応物とほぼ同じ保証を達成する完全に適応する方法を提案します。

要約(オリジナル)

We examine the problem of regret minimization when the learner is involved in a continuous game with other optimizing agents: in this case, if all players follow a no-regret algorithm, it is possible to achieve significantly lower regret relative to fully adversarial environments. We study this problem in the context of variationally stable games (a class of continuous games which includes all convex-concave and monotone games), and when the players only have access to noisy estimates of their individual payoff gradients. If the noise is additive, the game-theoretic and purely adversarial settings enjoy similar regret guarantees; however, if the noise is multiplicative, we show that the learners can, in fact, achieve constant regret. We achieve this faster rate via an optimistic gradient scheme with learning rate separation — that is, the method’s extrapolation and update steps are tuned to different schedules, depending on the noise profile. Subsequently, to eliminate the need for delicate hyperparameter tuning, we propose a fully adaptive method that attains nearly the same guarantees as its non-adapted counterpart, while operating without knowledge of either the game or of the noise profile.

arxiv情報

著者 Yu-Guan Hsieh,Kimon Antonakopoulos,Volkan Cevher,Panayotis Mertikopoulos
発行日 2023-03-17 16:49:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.GT, cs.LG パーマリンク