Online POMDP Planning with Anytime Deterministic Guarantees

要約

実世界のシナリオで活動する自律エージェントは、しばしば不確実性に遭遇し、不完全な情報に基づいて意思決定を行う。不確実性の下でのプランニングは、部分観測可能マルコフ決定過程(POMDP)を用いて数学的に定式化することができる。しかし、POMDPの最適計画を求めるには計算コストがかかり、小さなタスクにしか実行できない。近年、木探索やサンプルベース手法などの近似アルゴリズムが、より大規模な問題に対する最先端のPOMDPソルバーとして登場している。その有効性にもかかわらず、これらのアルゴリズムはサンプリングに依存しているため、最適解に対する確率的でしばしば漸近的な保証しか提供しない。これらの限界に対処するため、我々は、より簡単に得られる簡略解と理論的に最適な解との間の決定論的な関係を導出する。まず、各事後ノードで完全信念を計算しながら、分岐するオブザベーションの部分集合を選択するための境界を導出する。次に、完全な信念の更新は計算量が多くなる可能性があるため、状態空間と観測空間の両方の削減をサポートするように境界を拡張する。我々の保証が、状態と観測の部分集合をサンプリングする既存の最先端ソルバーとどのように統合できるかを示す。その結果、返された解は最適な政策に対して決定論的な境界を持つ。最後に、実験結果を用いて我々の発見を実証する。

要約(オリジナル)

Autonomous agents operating in real-world scenarios frequently encounter uncertainty and make decisions based on incomplete information. Planning under uncertainty can be mathematically formalized using partially observable Markov decision processes (POMDPs). However, finding an optimal plan for POMDPs can be computationally expensive and is feasible only for small tasks. In recent years, approximate algorithms, such as tree search and sample-based methodologies, have emerged as state-of-the-art POMDP solvers for larger problems. Despite their effectiveness, these algorithms offer only probabilistic and often asymptotic guarantees toward the optimal solution due to their dependence on sampling. To address these limitations, we derive a deterministic relationship between a simplified solution that is easier to obtain and the theoretically optimal one. First, we derive bounds for selecting a subset of the observations to branch from while computing a complete belief at each posterior node. Then, since a complete belief update may be computationally demanding, we extend the bounds to support reduction of both the state and the observation spaces. We demonstrate how our guarantees can be integrated with existing state-of-the-art solvers that sample a subset of states and observations. As a result, the returned solution holds deterministic bounds relative to the optimal policy. Lastly, we substantiate our findings with supporting experimental results.

arxiv情報

著者 Moran Barenboim,Vadim Indelman
発行日 2023-10-03 04:40:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.RO パーマリンク