Near-Optimal $Φ$-Regret Learning in Extensive-Form Games

要約

この論文では、マルチプレイヤーの完全想起不完全情報拡張型ゲームですべてのプレイヤーが使用した場合、各プレイヤーのトリガー後悔が $ の後に $O(\log T)$ として増加するように、効率的で非連関な学習ダイナミクスを確立します。
T$ のプレイの繰り返し。
これは、$O(T^{1/4})$ という以前の最もよく知られているトリガー-リグレット境界よりも指数関数的に改善されており、Bai らによる最近の未解決の疑問が解決されました。
(2022年)。
即時の結果として、$\frac{\log T}{T}$ の最適に近いレートで一連の拡張形式相関平衡と粗相関平衡への収束が保証されます。
以前の研究に基づいて、私たちの構築の中心には、多項式の次数を持つ有理関数から導出される固定点に関するより一般的な結果があり、これは、(粗い) トリガー偏差関数の固定点に対して確立される特性です。
さらに、私たちの構築では、凸包の洗練されたリグレス回路を活用しており、これまでの保証とは異なり、Syrgkanis らによって導入された RVU 特性が維持されます。
(生理学研究所、2015);
この観察には、後悔の CFR タイプの分解に基づく学習ダイナミクスの下で最適に近い後悔を確立するという独立した関心があります。

要約(オリジナル)

In this paper, we establish efficient and uncoupled learning dynamics so that, when employed by all players in multiplayer perfect-recall imperfect-information extensive-form games, the trigger regret of each player grows as $O(\log T)$ after $T$ repetitions of play. This improves exponentially over the prior best known trigger-regret bound of $O(T^{1/4})$, and settles a recent open question by Bai et al. (2022). As an immediate consequence, we guarantee convergence to the set of extensive-form correlated equilibria and coarse correlated equilibria at a near-optimal rate of $\frac{\log T}{T}$. Building on prior work, at the heart of our construction lies a more general result regarding fixed points deriving from rational functions with polynomial degree, a property that we establish for the fixed points of (coarse) trigger deviation functions. Moreover, our construction leverages a refined regret circuit for the convex hull, which — unlike prior guarantees — preserves the RVU property introduced by Syrgkanis et al. (NIPS, 2015); this observation has an independent interest in establishing near-optimal regret under learning dynamics based on a CFR-type decomposition of the regret.

arxiv情報

著者 Ioannis Anagnostides,Gabriele Farina,Tuomas Sandholm
発行日 2023-09-19 13:42:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.GT, cs.LG パーマリンク