要約
有限ホライズン Dec-POMDP のポリシーを計算するための A* ベースのアルゴリズムを紹介します。
私たちの目標は、最適性を犠牲にして、より大きな視野に向けたスケーラビリティを優先することです。
私たちのアプローチの主な要素は、(1) クラスター化されたスライディング ウィンドウ メモリの使用、(2) A* 検索ツリーの枝刈り、および (3) 新しい A* ヒューリスティックの使用です。
私たちの実験では、最先端の製品に匹敵するパフォーマンスを示しています。
さらに、複数のベンチマークにおいて優れたパフォーマンスを達成しています。
さらに、長期にわたる問題に合わせて最適化の上限を見つける A* アルゴリズムを提供します。
主な要素は、状態を定期的に明らかにする新しいヒューリスティックであり、それによって到達可能な信念の数を制限します。
私たちの実験は、このアプローチの有効性と拡張性を実証しています。
要約(オリジナル)
We present an A*-based algorithm to compute policies for finite-horizon Dec-POMDPs. Our goal is to sacrifice optimality in favor of scalability for larger horizons. The main ingredients of our approach are (1) using clustered sliding window memory, (2) pruning the A* search tree, and (3) using novel A* heuristics. Our experiments show competitive performance to the state-of-the-art. Moreover, for multiple benchmarks, we achieve superior performance. In addition, we provide an A* algorithm that finds upper bounds for the optimum, tailored towards problems with long horizons. The main ingredient is a new heuristic that periodically reveals the state, thereby limiting the number of reachable beliefs. Our experiments demonstrate the efficacy and scalability of the approach.
arxiv情報
著者 | Wietze Koops,Sebastian Junges,Nils Jansen |
発行日 | 2024-05-09 10:33:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google