Multi-Agent Advisor Q-Learning

要約

過去 10 年間で、マルチエージェント強化学習 (MARL) は大幅に進歩しましたが、サンプルの複雑性が高く、安定したポリシーへの収束が遅いなど、広範な展開が可能になる前に克服する必要がある多くの課題がまだあります。
.
ただし、多くの現実の環境では、実際には、ポリシーを生成するための次善のアプローチまたはヒューリスティックなアプローチがすでに導入されています。
発生する興味深い問題は、アドバイザーなどのアプローチを最適に使用して、マルチエージェント ドメインでの強化学習を改善する方法です。
このホワイトペーパーでは、マルチエージェント設定でオンラインの準最適アドバイザーからのアクション推奨事項を組み込むための原則に基づいたフレームワークを提供します。
非制限的な一般和確率ゲーム環境におけるADvising Multiple Intelligent Reinforcement Agents (ADMIRAL)の問題を説明し、ADMIRAL – 意思決定 (ADMIRAL-DM) とADMIRAL – アドバイザー評価 (ADMIRAL-AE) の2つの新しいQ学習ベースのアルゴリズムを提示します。
、アドバイザーからのアドバイスを適切に取り入れて学習を改善し(ADMIRAL-DM)、アドバイザーの有効性を評価します(ADMIRAL-AE)。
アルゴリズムを理論的に分析し、一般和確率ゲームでの学習に関する固定小数点保証を提供します。
さらに、大規模な実験により、これらのアルゴリズムは、さまざまな環境で使用でき、他の関連するベースラインよりも優れたパフォーマンスを発揮し、大きな状態アクション空間にスケーリングでき、アドバイザーからの不適切なアドバイスに対して堅牢であることが示されています。

要約(オリジナル)

In the last decade, there have been significant advances in multi-agent reinforcement learning (MARL) but there are still numerous challenges, such as high sample complexity and slow convergence to stable policies, that need to be overcome before wide-spread deployment is possible. However, many real-world environments already, in practice, deploy sub-optimal or heuristic approaches for generating policies. An interesting question that arises is how to best use such approaches as advisors to help improve reinforcement learning in multi-agent domains. In this paper, we provide a principled framework for incorporating action recommendations from online sub-optimal advisors in multi-agent settings. We describe the problem of ADvising Multiple Intelligent Reinforcement Agents (ADMIRAL) in nonrestrictive general-sum stochastic game environments and present two novel Q-learning based algorithms: ADMIRAL – Decision Making (ADMIRAL-DM) and ADMIRAL – Advisor Evaluation (ADMIRAL-AE), which allow us to improve learning by appropriately incorporating advice from an advisor (ADMIRAL-DM), and evaluate the effectiveness of an advisor (ADMIRAL-AE). We analyze the algorithms theoretically and provide fixed-point guarantees regarding their learning in general-sum stochastic games. Furthermore, extensive experiments illustrate that these algorithms: can be used in a variety of environments, have performances that compare favourably to other related baselines, can scale to large state-action spaces, and are robust to poor advice from advisors.

arxiv情報

著者 Sriram Ganapathi Subramanian,Matthew E. Taylor,Kate Larson,Mark Crowley
発行日 2023-03-01 12:54:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.MA パーマリンク