Optimally Solving Simultaneous-Move Dec-POMDPs: The Sequential Central Planning Approach

要約

分散実行パラダイムのための集中トレーニングは、分散された部分的に観察可能なマルコフ決定プロセスをイプシロン最適に解決するための最先端のアプローチとして登場しました。
ただし、スケーラビリティは依然として重要な問題です。
この論文では、新しくてよりスケーラブルな代替案、つまり分散実行のための逐次移動集中型トレーニングを紹介します。
このパラダイムは、ベルマンの最適性原理の適用可能性をさらに推し進め、3 つの新しい特性をもたらします。
第 1 に、これにより中央プランナーは、事前の同時移動統計ではなく、十分な連続移動統計に基づいて推論できるようになります。
次に、イプシロン最適値関数が十分な逐次移動統計において区分線形かつ凸であることを証明します。
最後に、計画期間が長くなりますが、バックアップ演算子の複雑さが 2 倍指数関数から多項式に軽減されます。
さらに、単一エージェント手法の使用が容易になります。たとえば、これらの発見によって強化された SARSA アルゴリズムが、収束保証を維持しながら適用されます。
イプシロン最適同時移動ソルバーに対する文献からの 2 エージェント ドメインおよび多数エージェント ドメインの実験により、この新しいアプローチの優位性が確認されました。
このパラダイムは、マルチエージェント システムの効率的な計画および強化学習方法への扉を開きます。

要約(オリジナル)

Centralized training for decentralized execution paradigm emerged as the state-of-the-art approach to epsilon-optimally solving decentralized partially observable Markov decision processes. However, scalability remains a significant issue. This paper presents a novel and more scalable alternative, namely sequential-move centralized training for decentralized execution. This paradigm further pushes the applicability of Bellman’s principle of optimality, raising three new properties. First, it allows a central planner to reason upon sufficient sequential-move statistics instead of prior simultaneous-move ones. Next, it proves that epsilon-optimal value functions are piecewise linear and convex in sufficient sequential-move statistics. Finally, it drops the complexity of the backup operators from double exponential to polynomial at the expense of longer planning horizons. Besides, it makes it easy to use single-agent methods, e.g., SARSA algorithm enhanced with these findings applies while still preserving convergence guarantees. Experiments on two- as well as many-agent domains from the literature against epsilon-optimal simultaneous-move solvers confirm the superiority of the novel approach. This paradigm opens the door for efficient planning and reinforcement learning methods for multi-agent systems.

arxiv情報

著者 Johan Peralez,Aurélien Delage,Jacopo Castellini,Rafael F. Cunha,Jilles S. Dibangoye
発行日 2024-08-23 15:01:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク