Scaling Long-Horizon Online POMDP Planning via Rapid State Space Sampling

要約

部分的に観察可能なマルコフ決定プロセス (POMDP) は、不確実性の下での動作計画のための一般的かつ原理的なフレームワークです。
POMDP ソルバーのスケーラビリティは大幅に向上しましたが、長期の POMDP ($\geq15$ ステップなど) は依然として解決が困難です。
この論文では、Rapid State Space Sampling (ROP-RaS3) による Reference-Based Online POMDP Planning と呼ばれる、新しい近似オンライン POMDP ソルバーを提案します。
ROP-RaS3 は、新しい非常に高速なサンプリング ベースの動作計画技術を使用して状態空間をサンプリングし、オンラインでさまざまなマクロ アクションのセットを生成します。その後、これを使用して信念空間サンプリングにバイアスをかけ、アクションを徹底的に列挙する必要なく高品質のポリシーを推論します。
スペース — 最新のオンライン POMDP ソルバーにとって基本的な制約です。
ROP-RaS3 は、100 ステップを超える計画期間の問題や、20 を超える先読みステップを必要とする 15 次元状態空間の問題など、さまざまな長期 POMDP で評価されます。
これらすべての問題において、ROP-RaS3 は他の最先端の方法を最大で数倍も大幅に上回ります。

要約(オリジナル)

Partially Observable Markov Decision Processes (POMDPs) are a general and principled framework for motion planning under uncertainty. Despite tremendous improvement in the scalability of POMDP solvers, long-horizon POMDPs (e.g., $\geq15$ steps) remain difficult to solve. This paper proposes a new approximate online POMDP solver, called Reference-Based Online POMDP Planning via Rapid State Space Sampling (ROP-RaS3). ROP-RaS3 uses novel extremely fast sampling-based motion planning techniques to sample the state space and generate a diverse set of macro actions online which are then used to bias belief-space sampling and infer high-quality policies without requiring exhaustive enumeration of the action space — a fundamental constraint for modern online POMDP solvers. ROP-RaS3 is evaluated on various long-horizon POMDPs, including on a problem with a planning horizon of more than 100 steps and a problem with a 15-dimensional state space that requires more than 20 look ahead steps. In all of these problems, ROP-RaS3 substantially outperforms other state-of-the-art methods by up to multiple folds.

arxiv情報

著者 Yuanchu Liang,Edward Kim,Wil Thomason,Zachary Kingston,Hanna Kurniawati,Lydia E. Kavraki
発行日 2024-11-11 14:38:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, I.2.8 パーマリンク