Sample-Efficient Robust Multi-Agent Reinforcement Learning in the Face of Environmental Uncertainty

要約

強化学習 (RL) におけるシミュレーションと現実のギャップを克服するには、学習されたポリシーが環境の不確実性に対して堅牢性を維持する必要があります。
堅牢な RL は単一エージェント体制では広く研究されていますが、マルチエージェント環境では、環境の不確実性によってもたらされる問題は戦略的相互作用によって悪化することが多いという事実にもかかわらず、この問題は依然として十分に研究されていません。
この研究は、標準的なマルコフ ゲームの堅牢なバージョンである分布的に堅牢なマルコフ ゲーム (RMG) での学習に焦点を当てています。各エージェントは、展開された環境が独自に規定した不確実性セット内で逸脱した場合に、自身の最悪の場合のパフォーマンスを最大化するポリシーを学習することを目的としています。
これにより、ゲーム理論の均衡の古典的な概念に沿った、すべてのエージェントに対する一連の堅牢な均衡戦略が得られます。
生成モデルからの非適応サンプリングメカニズムを仮定し、ゲーム理論の均衡のさまざまな概念の堅牢なバリアントを学習するために、有限サンプルの複雑性が保証されたサンプル効率的なモデルベースのアルゴリズム (DRNVI) を提案します。
また、RMG を解くための情報理論的な下限も確立します。これにより、状態空間のサイズ、ターゲットの精度、ホライズンの長さなどの問題に依存する要因に関して、DRNVI のサンプルの複雑さが最適に近いことが確認されます。

要約(オリジナル)

To overcome the sim-to-real gap in reinforcement learning (RL), learned policies must maintain robustness against environmental uncertainties. While robust RL has been widely studied in single-agent regimes, in multi-agent environments, the problem remains understudied — despite the fact that the problems posed by environmental uncertainties are often exacerbated by strategic interactions. This work focuses on learning in distributionally robust Markov games (RMGs), a robust variant of standard Markov games, wherein each agent aims to learn a policy that maximizes its own worst-case performance when the deployed environment deviates within its own prescribed uncertainty set. This results in a set of robust equilibrium strategies for all agents that align with classic notions of game-theoretic equilibria. Assuming a non-adaptive sampling mechanism from a generative model, we propose a sample-efficient model-based algorithm (DRNVI) with finite-sample complexity guarantees for learning robust variants of various notions of game-theoretic equilibria. We also establish an information-theoretic lower bound for solving RMGs, which confirms the near-optimal sample complexity of DRNVI with respect to problem-dependent factors such as the size of the state space, the target accuracy, and the horizon length.

arxiv情報

著者 Laixi Shi,Eric Mazumdar,Yuejie Chi,Adam Wierman
発行日 2024-04-29 17:51:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク