Thinking Beyond Visibility: A Near-Optimal Policy Framework for Locally Interdependent Multi-Agent MDPs

要約

分散化された部分的に観察可能なマルコフ決定プロセス(DEC-POMDP)は、NEXP完全で解決するのに扱いにくいことが知られています。
ただし、協力的なナビゲーション、障害物の回避、フォーメーション制御などの問題の場合、局所的な可視性とローカル依存関係について基本的な仮定を行うことができます。
作品はデューイーゼとQU 2024を、局所的に相互依存しているマルチエージェントMDPの構築においてこれらの仮定を正式にしました。
この設定では、さまざまな状況で計算するために扱いやすく、可視性に関して最適に指数関数的に近い3つのクローズドフォームポリシーを確立します。
ただし、これらのソリューションは、可視性が小さく固定されている場合にパフォーマンスが低下する可能性があることも示されており、いわゆる「ペナルティジッタ」現象のためにシミュレーション中にしばしば立ち往生しています。
この作業では、私たちの知る限り、局所的に相互依存する多剤MDPの可視性に関して最適に指数関数的に近い最適な閉じた部分的に観察可能なポリシーの最初の非自明なクラスである拡張されたカットオフポリシークラスを確立します。
これらのポリシーは、エージェントが可視性を超えて覚えているため、多くの小規模で固定された可視性設定で大幅にパフォーマンスを発揮し、ペナルティが不安定な発生を解決し、特定の状況では、部分的な観測性にもかかわらず完全に観察可能な共同最適動作を保証します。
また、遷移依存性と拡張報酬依存性を可能にする局所的に相互依存したマルチエージェントMDPの一般化された形式を提案し、この設定で理論的な結果を再現します。

要約(オリジナル)

Decentralized Partially Observable Markov Decision Processes (Dec-POMDPs) are known to be NEXP-Complete and intractable to solve. However, for problems such as cooperative navigation, obstacle avoidance, and formation control, basic assumptions can be made about local visibility and local dependencies. The work DeWeese and Qu 2024 formalized these assumptions in the construction of the Locally Interdependent Multi-Agent MDP. In this setting, it establishes three closed-form policies that are tractable to compute in various situations and are exponentially close to optimal with respect to visibility. However, it is also shown that these solutions can have poor performance when the visibility is small and fixed, often getting stuck during simulations due to the so called ‘Penalty Jittering’ phenomenon. In this work, we establish the Extended Cutoff Policy Class which is, to the best of our knowledge, the first non-trivial class of near optimal closed-form partially observable policies that are exponentially close to optimal with respect to the visibility for any Locally Interdependent Multi-Agent MDP. These policies are able to remember agents beyond their visibilities which allows them to perform significantly better in many small and fixed visibility settings, resolve Penalty Jittering occurrences, and under certain circumstances guarantee fully observable joint optimal behavior despite the partial observability. We also propose a generalized form of the Locally Interdependent Multi-Agent MDP that allows for transition dependence and extended reward dependence, then replicate our theoretical results in this setting.

arxiv情報

著者 Alex DeWeese,Guannan Qu
発行日 2025-06-04 17:57:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.MA, math.OC パーマリンク