Optimally Solving Simultaneous-Move Dec-POMDPs: The Sequential Central Planning Approach


このパラダイムは、ベルマンの最適性原理の適用可能性をさらに推し進め、3 つの新しい特性をもたらします。
第 1 に、これにより中央プランナーは、事前の同時移動統計ではなく、十分な連続移動統計に基づいて推論できるようになります。
最後に、計画期間が長くなりますが、バックアップ演算子の複雑さが 2 倍指数関数から多項式に軽減されます。
さらに、単一エージェント手法の使用が容易になります。たとえば、これらの発見によって強化された SARSA アルゴリズムが、収束保証を維持しながら適用されます。
イプシロン最適同時移動ソルバーに対する文献からの 2 エージェント ドメインおよび多数エージェント ドメインの実験により、この新しいアプローチの優位性が確認されました。
このパラダイムは、マルチエージェント システムの効率的な計画および強化学習方法への扉を開きます。


Centralized training for decentralized execution paradigm emerged as the state-of-the-art approach to epsilon-optimally solving decentralized partially observable Markov decision processes. However, scalability remains a significant issue. This paper presents a novel and more scalable alternative, namely sequential-move centralized training for decentralized execution. This paradigm further pushes the applicability of Bellman’s principle of optimality, raising three new properties. First, it allows a central planner to reason upon sufficient sequential-move statistics instead of prior simultaneous-move ones. Next, it proves that epsilon-optimal value functions are piecewise linear and convex in sufficient sequential-move statistics. Finally, it drops the complexity of the backup operators from double exponential to polynomial at the expense of longer planning horizons. Besides, it makes it easy to use single-agent methods, e.g., SARSA algorithm enhanced with these findings applies while still preserving convergence guarantees. Experiments on two- as well as many-agent domains from the literature against epsilon-optimal simultaneous-move solvers confirm the superiority of the novel approach. This paradigm opens the door for efficient planning and reinforcement learning methods for multi-agent systems.


著者 Johan Peralez,Aurélien Delage,Jacopo Castellini,Rafael F. Cunha,Jilles S. Dibangoye
発行日 2024-08-23 15:01:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク