Monte-Carlo Search for an Equilibrium in Dec-POMDPs

要約

分散型部分観測可能マルコフ決定プロセス (Dec-POMDP) は、確率力学と部分観測可能性の下で協調エージェントのグループに対する個別のコントローラーを設計する問題を形式化します。
大域的な最適値を求めることは困難ですが (NEXP が完了)、ナッシュ均衡 (各エージェントのポリシーが他のエージェントに対する最適な応答となる) を求めることはより容易であり、有限状態の形での解決策を使用して無限の地平線の問題に対処することができます。
コントローラー。
この論文では、このアプローチが Dec-POMDP の生成モデル (シミュレーター) のみが利用可能な場合にも適用できることを示します。
これには、シミュレーション ベースの POMDP ソルバーを利用してエージェントの FSC をノードごとに構築する必要があります。
関連するプロセスを使用して、初期 FSC をヒューリスティックに導出します。
ベンチマークによる実験では、MC-JESP が既存の Dec-POMDP ソルバーと競合し、陽的モデルを使用する多くのオフライン手法よりも優れていることが示されています。

要約(オリジナル)

Decentralized partially observable Markov decision processes (Dec-POMDPs) formalize the problem of designing individual controllers for a group of collaborative agents under stochastic dynamics and partial observability. Seeking a global optimum is difficult (NEXP complete), but seeking a Nash equilibrium — each agent policy being a best response to the other agents — is more accessible, and allowed addressing infinite-horizon problems with solutions in the form of finite state controllers. In this paper, we show that this approach can be adapted to cases where only a generative model (a simulator) of the Dec-POMDP is available. This requires relying on a simulation-based POMDP solver to construct an agent’s FSC node by node. A related process is used to heuristically derive initial FSCs. Experiment with benchmarks shows that MC-JESP is competitive with exisiting Dec-POMDP solvers, even better than many offline methods using explicit models.

arxiv情報

著者 Yang You,Vincent Thomas,Francis Colas,Olivier Buffet
発行日 2023-05-19 16:47:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク