要約
我々は、協調的なマルチエージェント強化学習 (MARL) における効率的であると証明されたランダム化探索に関する最初の研究を紹介します。
我々は、並列マルコフ決定プロセス (MDP) でのランダム化探索のための統一アルゴリズム フレームワークと、摂動履歴探索 (PHE) 戦略とランジュバン法を組み込んだ 2 つのトンプソン サンプリング (TS) タイプのアルゴリズム、CoopTS-PHE および CoopTS-LMC を提案します。
それぞれモンテカルロ探査 (LMC) 戦略であり、設計が柔軟で、実際に実装するのが簡単です。
遷移が (ほぼ) 線形である特殊なクラスの並列 MDP の場合、CoopTS-PHE と CoopTS-LMC の両方が $\widetilde{\mathcal{O}}(d^{3/2}H^
2\sqrt{MK})$ 残念ながら通信の複雑さ $\widetilde{\mathcal{O}}(dHM^2)$、ここで $d$ は特徴の寸法、$H$ は水平線の長さ、$M$
はエージェントの数、$K$ はエピソードの数です。
これは、協調型 MARL におけるランダム化探索の最初の理論的結果です。
提案手法を、深層探索問題 (\textit{i.e,} $N$-chain)、ビデオ ゲーム、エネルギー システムにおける現実世界の問題など、複数の並列 RL 環境で評価します。
私たちの実験結果は、遷移モデルが誤って指定された条件下でも、フレームワークがより優れたパフォーマンスを達成できることを裏付けています。
さらに、統合フレームワークとフェデレーテッド ラーニングの実践的なアプリケーションとの間の接続を確立します。
要約(オリジナル)
We present the first study on provably efficient randomized exploration in cooperative multi-agent reinforcement learning (MARL). We propose a unified algorithm framework for randomized exploration in parallel Markov Decision Processes (MDPs), and two Thompson Sampling (TS)-type algorithms, CoopTS-PHE and CoopTS-LMC, incorporating the perturbed-history exploration (PHE) strategy and the Langevin Monte Carlo exploration (LMC) strategy respectively, which are flexible in design and easy to implement in practice. For a special class of parallel MDPs where the transition is (approximately) linear, we theoretically prove that both CoopTS-PHE and CoopTS-LMC achieve a $\widetilde{\mathcal{O}}(d^{3/2}H^2\sqrt{MK})$ regret bound with communication complexity $\widetilde{\mathcal{O}}(dHM^2)$, where $d$ is the feature dimension, $H$ is the horizon length, $M$ is the number of agents, and $K$ is the number of episodes. This is the first theoretical result for randomized exploration in cooperative MARL. We evaluate our proposed method on multiple parallel RL environments, including a deep exploration problem (\textit{i.e.,} $N$-chain), a video game, and a real-world problem in energy systems. Our experimental results support that our framework can achieve better performance, even under conditions of misspecified transition models. Additionally, we establish a connection between our unified framework and the practical application of federated learning.
arxiv情報
著者 | Hao-Lun Hsu,Weixin Wang,Miroslav Pajic,Pan Xu |
発行日 | 2024-04-16 17:01:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google