Approximate Dec-POMDP Solving Using Multi-Agent A*

要約

有限ホライズン Dec-POMDP のポリシーを計算するための A* ベースのアルゴリズムを紹介します。
私たちの目標は、最適性を犠牲にして、より大きな視野に向けたスケーラビリティを優先することです。
私たちのアプローチの主な要素は、(1) クラスター化されたスライディング ウィンドウ メモリの使用、(2) A* 検索ツリーの枝刈り、および (3) 新しい A* ヒューリスティックの使用です。
私たちの実験では、最先端の製品に匹敵するパフォーマンスを示しています。
さらに、複数のベンチマークにおいて優れたパフォーマンスを達成しています。
さらに、長期にわたる問題に合わせて最適化の上限を見つける A* アルゴリズムを提供します。
主な要素は、状態を定期的に明らかにする新しいヒューリスティックであり、それによって到達可能な信念の数を制限します。
私たちの実験は、このアプローチの有効性と拡張性を実証しています。

要約(オリジナル)

We present an A*-based algorithm to compute policies for finite-horizon Dec-POMDPs. Our goal is to sacrifice optimality in favor of scalability for larger horizons. The main ingredients of our approach are (1) using clustered sliding window memory, (2) pruning the A* search tree, and (3) using novel A* heuristics. Our experiments show competitive performance to the state-of-the-art. Moreover, for multiple benchmarks, we achieve superior performance. In addition, we provide an A* algorithm that finds upper bounds for the optimum, tailored towards problems with long horizons. The main ingredient is a new heuristic that periodically reveals the state, thereby limiting the number of reachable beliefs. Our experiments demonstrate the efficacy and scalability of the approach.

arxiv情報

著者 Wietze Koops,Sebastian Junges,Nils Jansen
発行日 2024-05-09 10:33:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク