Anytime Incremental $ρ$POMDP Planning in Continuous Spaces

要約

部分観測可能マルコフ決定過程(POMDP)は、自律走行やロボット探査などの応用において、不確実性の下での意思決定に頑健な枠組みを提供する。POMDPの拡張である$rho$POMDPは、信念依存の報酬を導入し、不確実性に関する明示的な推論を可能にする。既存の連続空間用のオンライン$rho$POMDPソルバは、固定的な信念表現に依存しており、情報収集などのタスクに重要な適応性と洗練性を制限している。本論文では、信念表現を動的に改良し、時間経過に伴う改良を形式的に保証する、 随時実行可能な$rho$POMCPOWソルバを紹介する。信念に依存する報酬の更新にかかる高い計算コストを軽減するために、新しいインクリメンタル計算アプローチを提案する。一般的なエントロピー推定量に対して、計算コストを桁違いに削減できることを実証する。実験結果は、$rho$POMCPOWが、効率と解の質の両方において、最新のソルバーを凌駕することを示している。

要約(オリジナル)

Partially Observable Markov Decision Processes (POMDPs) provide a robust framework for decision-making under uncertainty in applications such as autonomous driving and robotic exploration. Their extension, $\rho$POMDPs, introduces belief-dependent rewards, enabling explicit reasoning about uncertainty. Existing online $\rho$POMDP solvers for continuous spaces rely on fixed belief representations, limiting adaptability and refinement – critical for tasks such as information-gathering. We present $\rho$POMCPOW, an anytime solver that dynamically refines belief representations, with formal guarantees of improvement over time. To mitigate the high computational cost of updating belief-dependent rewards, we propose a novel incremental computation approach. We demonstrate its effectiveness for common entropy estimators, reducing computational cost by orders of magnitude. Experimental results show that $\rho$POMCPOW outperforms state-of-the-art solvers in both efficiency and solution quality.

arxiv情報

著者 Ron Benchetrit,Idan Lev-Yehudi,Andrey Zhitnikov,Vadim Indelman
発行日 2025-02-04 18:19:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク