Partially Observable Multi-Agent Reinforcement Learning with Information Sharing

要約

私たちは、部分的に観測可能な確率的ゲーム (POSG) の一般的な枠組みで、証明可能なマルチエージェント強化学習 (RL) を研究します。
既知の硬度の結果と計算的に扱いにくいオラクルの使用を回避するために、経験的なマルチエージェント RL の一般的な実践であるエージェント間の潜在的な \emph{情報共有}、およびマルチエージェント制御システムの標準モデルを活用することを提唱します。
コミュニケーション。
まず、情報共有の必要性を正当化するために、いくつかの計算複雑性の結果を確立します。また、POSG を効率的に解決するために、部分的な観測による準効率的なシングルエージェント RL を可能にする可観測性の仮定も確立します。
{グラウンドトゥルース モデルにおける計画の非効率性に着想を得て、} 次に、共有された共通情報をさらに \emph{近似} して POSG の {近似モデル} を構築することを提案します。
(元の POSG を解くという点で) 前述の仮定の下では、準効率的、つまり準多項式時間で行うことができます。
さらに、統計的にも計算的にも準効率的な、部分的に観測可能なマルチエージェント RL アルゴリズムを開発します。
{最後に、平衡学習を超えて、アルゴリズムのフレームワークを、協調的な POSG における \emph{チーム最適解}、つまり分散型の部分的に観察可能なマルコフ決定プロセスの発見に拡張します。これは、はるかに困難な目標です。
私たちは、モデルのいくつかの共通の構造仮定の下で、具体的な計算とサンプルの複雑さを確立します。} 私たちの研究が、制御理論でよく研究されている概念であるさまざまな \emph{情報構造} を活用し、さらには設計する可能性を、開発のために開くことができれば幸いです。
サンプル効率と計算効率の両方が高く、部分的に観察可能なマルチエージェント RL。

要約(オリジナル)

We study provable multi-agent reinforcement learning (RL) in the general framework of partially observable stochastic games (POSGs). To circumvent the known hardness results and the use of computationally intractable oracles, we advocate leveraging the potential \emph{information-sharing} among agents, a common practice in empirical multi-agent RL, and a standard model for multi-agent control systems with communications. We first establish several computational complexity results to justify the necessity of information-sharing, as well as the observability assumption that has enabled quasi-efficient single-agent RL with partial observations, for efficiently solving POSGs. {Inspired by the inefficiency of planning in the ground-truth model,} we then propose to further \emph{approximate} the shared common information to construct an {approximate model} of the POSG, in which planning an approximate \emph{equilibrium} (in terms of solving the original POSG) can be quasi-efficient, i.e., of quasi-polynomial-time, under the aforementioned assumptions. Furthermore, we develop a partially observable multi-agent RL algorithm that is \emph{both} statistically and computationally quasi-efficient. {Finally, beyond equilibrium learning, we extend our algorithmic framework to finding the \emph{team-optimal solution} in cooperative POSGs, i.e., decentralized partially observable Markov decision processes, a much more challenging goal. We establish concrete computational and sample complexities under several common structural assumptions of the model.} We hope our study could open up the possibilities of leveraging and even designing different \emph{information structures}, a well-studied notion in control theory, for developing both sample- and computation-efficient partially observable multi-agent RL.

arxiv情報

著者 Xiangyu Liu,Kaiqing Zhang
発行日 2024-09-04 16:44:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.GT, cs.LG, cs.MA パーマリンク