要約
後悔のないアルゴリズムは、2 人のプレーヤーのゼロ和正規形式ゲーム (NFG) および拡張形式ゲーム (EFG) でナッシュ均衡 (NE) を学習するのによく使われます。
最近の研究の多くは、最終反復収束ノーリグレット アルゴリズムを考慮しています。
その中で最も有名な 2 つのアルゴリズムは、Optimistic Gradient Descent Ascent (OGDA) と Optimistic Multiplicative Weight Update (OMWU) です。
ただし、OGDA は反復ごとの複雑さが高くなります。
OMWU は反復ごとの複雑さは低いですが、経験的なパフォーマンスは低く、その収束は NE が一意である場合にのみ成立します。
最近の研究では、一意性条件を取り除き、OMWU と競合するパフォーマンスを達成する、MWU の報酬変換 (RT) フレームワークを提案しています。
残念ながら、RT ベースのアルゴリズムは、同じ反復回数では OGDA よりもパフォーマンスが悪く、その収束保証は連続時間フィードバックの仮定に基づいていますが、これはほとんどのシナリオでは当てはまりません。
これらの問題に対処するために、連続時間フィードバックと離散時間フィードバックの両方に適用される RT フレームワークの詳細な分析を提供します。
RT フレームワークの本質は、元のゲームでの NE の学習問題を一連の強く凸凹な最適化問題 (SCCP) に変換することであることを示します。
RT ベースのアルゴリズムのボトルネックは SCCP を解く速度であることを示します。
経験的パフォーマンスを向上させるために、より優れた経験的パフォーマンスを備えた後悔のないアルゴリズムである Regret Matching+ (RM+) によって SCCP を解決できるようにする新しい変換方法を設計し、結果として Reward Transformation RM+ (RTRM+) が得られます。
RTRM+ は、離散時間フィードバック設定の下で最終反復収束を実現します。
反事実的後悔分解フレームワークを使用して、RTRM+ を EFG に拡張する報酬変換 CFR+ (RTCFR+) を提案します。
実験結果は、私たちのアルゴリズムが既存の最終反復収束アルゴリズムおよび RM+ (CFR+) よりも大幅に優れていることを示しています。
要約(オリジナル)
No-regret algorithms are popular for learning Nash equilibrium (NE) in two-player zero-sum normal-form games (NFGs) and extensive-form games (EFGs). Many recent works consider the last-iterate convergence no-regret algorithms. Among them, the two most famous algorithms are Optimistic Gradient Descent Ascent (OGDA) and Optimistic Multiplicative Weight Update (OMWU). However, OGDA has high per-iteration complexity. OMWU exhibits a lower per-iteration complexity but poorer empirical performance, and its convergence holds only when NE is unique. Recent works propose a Reward Transformation (RT) framework for MWU, which removes the uniqueness condition and achieves competitive performance with OMWU. Unfortunately, RT-based algorithms perform worse than OGDA under the same number of iterations, and their convergence guarantee is based on the continuous-time feedback assumption, which does not hold in most scenarios. To address these issues, we provide a closer analysis of the RT framework, which holds for both continuous and discrete-time feedback. We demonstrate that the essence of the RT framework is to transform the problem of learning NE in the original game into a series of strongly convex-concave optimization problems (SCCPs). We show that the bottleneck of RT-based algorithms is the speed of solving SCCPs. To improve the their empirical performance, we design a novel transformation method to enable the SCCPs can be solved by Regret Matching+ (RM+), a no-regret algorithm with better empirical performance, resulting in Reward Transformation RM+ (RTRM+). RTRM+ enjoys last-iterate convergence under the discrete-time feedback setting. Using the counterfactual regret decomposition framework, we propose Reward Transformation CFR+ (RTCFR+) to extend RTRM+ to EFGs. Experimental results show that our algorithms significantly outperform existing last-iterate convergence algorithms and RM+ (CFR+).
arxiv情報
著者 | Linjian Meng,Zhenxing Ge,Wenbin Li,Bo An,Yang Gao |
発行日 | 2023-08-22 07:59:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google