Factored Online Planning in Many-Agent POMDPs

要約

集中型マルチエージェント システムでは、マルチエージェントの部分観察可能なマルコフ意思決定プロセス (MPOMDP) としてモデル化されることが多く、アクションと観察の空間はエージェントの数に応じて指数関数的に増大し、単一エージェントのオンライン プランニングの価値と信念の推定が非効率的になります。
従来の研究では、いわゆる調整グラフを介してマルチエージェント設定の固有の構造を利用することによって、部分的に価値の推定に取り組んでいます。
さらに、観測値の尤度を近似値に組み込むことにより、信念推定が改善されました。
ただし、価値推定と信念推定の課題は個別にしか取り組まれていないため、既存の手法を多数のエージェントに拡張することができません。
したがって、私たちはこれらの課題に同時に対処します。
まず、MPOMDP 用のサンプルベースのオンライン プランナーに重み付き粒子フィルタリングを導入します。
第二に、信念のスケーラブルな近似を提示します。
第三に、エージェント相互作用の典型的な局所性を利用するアプローチを、いわゆるスパース粒子フィルター ツリー上で動作する MPOMDP 用の新しいオンライン プランニング アルゴリズムに導入します。
いくつかの最先端のベースラインに対する私たちの実験的評価は、私たちの方法が (1) 少数のエージェントのみを使用した設定で競合し、(2) 多数のエージェントの存在下でベースラインよりも改善することを示しています。

要約(オリジナル)

In centralized multi-agent systems, often modeled as multi-agent partially observable Markov decision processes (MPOMDPs), the action and observation spaces grow exponentially with the number of agents, making the value and belief estimation of single-agent online planning ineffective. Prior work partially tackles value estimation by exploiting the inherent structure of multi-agent settings via so-called coordination graphs. Additionally, belief estimation has been improved by incorporating the likelihood of observations into the approximation. However, the challenges of value estimation and belief estimation have only been tackled individually, which prevents existing methods from scaling to many agents. Therefore, we address these challenges simultaneously. First, we introduce weighted particle filtering to a sample-based online planner for MPOMDPs. Second, we present a scalable approximation of the belief. Third, we bring an approach that exploits the typical locality of agent interactions to novel online planning algorithms for MPOMDPs operating on a so-called sparse particle filter tree. Our experimental evaluation against several state-of-the-art baselines shows that our methods (1) are competitive in settings with only a few agents and (2) improve over the baselines in the presence of many agents.

arxiv情報

著者 Maris F. L. Galesloot,Thiago D. Simão,Sebastian Junges,Nils Jansen
発行日 2023-12-22 15:56:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.MA パーマリンク