RL en Markov Games with Independent Function Approximation: Improved Sample Complexity Bound under the Local Access Model


マルチエージェンシーの呪いを克服しながら、総和マルコフ ゲームで大規模な状態空間と行動空間の均衡を効率的に学習することは、困難な問題です。
最近の研究では、独立した線形関数クラスを使用して各エージェントの限界 $Q$ 値を近似することによって、この問題を解決しようとしました。
しかし、そのようなフレームワークの下での既存のサンプル複雑さの限界は、望ましい精度 $\varepsilon$ またはアクション空間に対して最適ではない依存関係を持っています。
この研究では、シミュレータへのローカル アクセスを使用して粗相関平衡 (CCE) を学習するための新しいアルゴリズム Lin-Confident-FTRL を導入します。つまり、訪問した状態の基礎となる環境と対話できます。
Lin-Confident-FTRL は、状態空間のサイズに対する対数依存性まで、証明可能な最適精度限界 $O(\epsilon^{-2})$ で $\epsilon$-CCE を学習し、線形依存性を取り除きます。
関連する問題パラメーター (エージェントの数や時間軸など) に応じて多項式にスケールしながら、アクション空間上でスケールします。
さらに、Linear-Confident-FTRL の分析は、シングル エージェントのローカル プランニング文献における仮想ポリシーの反復手法を一般化します。これにより、シミュレーターへのランダム アクセスを想定した場合に、サンプルの複雑さの制限がより厳しくなった、計算効率の高い新しいアルゴリズムが得られます。


Efficiently learning equilibria with large state and action spaces in general-sum Markov games while overcoming the curse of multi-agency is a challenging problem. Recent works have attempted to solve this problem by employing independent linear function classes to approximate the marginal $Q$-value for each agent. However, existing sample complexity bounds under such a framework have a suboptimal dependency on the desired accuracy $\varepsilon$ or the action space. In this work, we introduce a new algorithm, Lin-Confident-FTRL, for learning coarse correlated equilibria (CCE) with local access to the simulator, i.e., one can interact with the underlying environment on the visited states. Up to a logarithmic dependence on the size of the state space, Lin-Confident-FTRL learns $\epsilon$-CCE with a provable optimal accuracy bound $O(\epsilon^{-2})$ and gets rids of the linear dependency on the action space, while scaling polynomially with relevant problem parameters (such as the number of agents and time horizon). Moreover, our analysis of Linear-Confident-FTRL generalizes the virtual policy iteration technique in the single-agent local planning literature, which yields a new computationally efficient algorithm with a tighter sample complexity bound when assuming random access to the simulator.


著者 Junyi Fan,Yuxuan Han,Jialin Zeng,Jian-Feng Cai,Yang Wang,Yang Xiang,Jiheng Zhang
発行日 2024-03-18 07:54:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク