From External to Swap Regret 2.0: An Efficient Reduction and Oblivious Adversary for Large Action Spaces

要約

我々は、スワップ・リグレット最小化から外部リグレット最小化への新しい削減を提供します。これは、アクションの空間の有限性を必要としないという点で、Blum-Mansour [BM07] および Stolz-Lugosi [SL05] の古典的な削減を改良しています。
ある仮説クラスに対して no-external-regret アルゴリズムが存在する場合は常に、その同じクラスに対して no-swap-regret アルゴリズムも存在する必要があることを示します。
専門家のアドバイスによる学習の問題について、私たちの結果は、$\log(N)^{O(1/\epsilon)}$ の丸め後、スワップ リグレスが {\epsilon} によって制限されることを保証できることを意味します。
反復ごとの複雑さ $O(N)$、ここで $N$ は専門家の数ですが、Blum-Mansour と Stolz-Lugosi の古典的な削減には $O(N/\epsilon^2)$ ラウンドと少なくとも $\ が必要です
反復ごとの複雑さの Omega(N^2)$。
私たちの結果には、関連する下限が付いています。これは、[BM07] のそれとは対照的に、専門家に対する分布を採用できる、無知で $\ell_1$ に制約された敵対者と学習者に当てはまり、ラウンド数は次のとおりである必要があることを示しています。
$\tilde\Omega(N/\epsilon^2)$ または $1/\epsilon$ の指数関数。
私たちの帰着は、あるゲームで後悔のない学習が可能である場合、そのゲームは任意に適切な近似の近似相関平衡を持っているに違いないことを意味します。
これは、近似的な相関平衡が存在するという、後悔のない学習の民間伝承の意味を強化します。
重要なことは、これは、アクションセットが有限であるという要件を大幅に拡張する、相関平衡が存在するための十分な条件を提供し、したがって[DG22;DG22;
お尻+23]。
さらに、ゲームにおける平衡計算や学習に関するいくつかの未解決の疑問にも答えます。

要約(オリジナル)

We provide a novel reduction from swap-regret minimization to external-regret minimization, which improves upon the classical reductions of Blum-Mansour [BM07] and Stolz-Lugosi [SL05] in that it does not require finiteness of the space of actions. We show that, whenever there exists a no-external-regret algorithm for some hypothesis class, there must also exist a no-swap-regret algorithm for that same class. For the problem of learning with expert advice, our result implies that it is possible to guarantee that the swap regret is bounded by {\epsilon} after $\log(N)^{O(1/\epsilon)}$ rounds and with $O(N)$ per iteration complexity, where $N$ is the number of experts, while the classical reductions of Blum-Mansour and Stolz-Lugosi require $O(N/\epsilon^2)$ rounds and at least $\Omega(N^2)$ per iteration complexity. Our result comes with an associated lower bound, which — in contrast to that in [BM07] — holds for oblivious and $\ell_1$-constrained adversaries and learners that can employ distributions over experts, showing that the number of rounds must be $\tilde\Omega(N/\epsilon^2)$ or exponential in $1/\epsilon$. Our reduction implies that, if no-regret learning is possible in some game, then this game must have approximate correlated equilibria, of arbitrarily good approximation. This strengthens the folklore implication of no-regret learning that approximate coarse correlated equilibria exist. Importantly, it provides a sufficient condition for the existence of correlated equilibrium which vastly extends the requirement that the action set is finite, thus answering a question left open by [DG22; Ass+23]. Moreover, it answers several outstanding questions about equilibrium computation and/or learning in games.

arxiv情報

著者 Yuval Dagan,Constantinos Daskalakis,Maxwell Fishelson,Noah Golowich
発行日 2023-10-31 17:57:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.GT, cs.LG パーマリンク