Online POMDP Planning with Anytime Deterministic Guarantees

要約

現実世界のシナリオで動作する自律型エージェントは、頻繁に不確実性に遭遇し、不完全な情報に基づいて意思決定を行います。
不確実性の下での計画は、部分的に観察可能なマルコフ決定プロセス (POMDP) を使用して数学的に形式化できます。
ただし、POMDP の最適な計画を見つけるには計算コストがかかる可能性があり、小規模なタスクでのみ実行可能です。
近年、ツリー検索やサンプルベースの方法論などの近似アルゴリズムが、より大きな問題に対する最先端の POMDP ソルバーとして登場しました。
これらのアルゴリズムは、その有効性にもかかわらず、サンプリングに依存しているため、最適解への確率的で、多くの場合漸近的な保証のみを提供します。
これらの制限に対処するために、入手が容易な単純化されたソリューションと理論的に最適なソリューションとの間の決定論的な関係を導き出します。
まず、各事後ノードで完全な信念を計算しながら、分岐する観測値のサブセットを選択するための境界を導出します。
次に、完全な信念の更新は計算量が多くなる可能性があるため、状態と観測空間の両方の縮小をサポートするように境界を拡張します。
私たちの保証を、状態と観測のサブセットをサンプリングする既存の最先端のソルバーとどのように統合できるかを示します。
結果として、返されたソリューションは、最適なポリシーに対して決定的な境界を保持します。
最後に、実験結果を裏付けることで発見を実証します。

要約(オリジナル)

Autonomous agents operating in real-world scenarios frequently encounter uncertainty and make decisions based on incomplete information. Planning under uncertainty can be mathematically formalized using partially observable Markov decision processes (POMDPs). However, finding an optimal plan for POMDPs can be computationally expensive and is feasible only for small tasks. In recent years, approximate algorithms, such as tree search and sample-based methodologies, have emerged as state-of-the-art POMDP solvers for larger problems. Despite their effectiveness, these algorithms offer only probabilistic and often asymptotic guarantees toward the optimal solution due to their dependence on sampling. To address these limitations, we derive a deterministic relationship between a simplified solution that is easier to obtain and the theoretically optimal one. First, we derive bounds for selecting a subset of the observations to branch from while computing a complete belief at each posterior node. Then, since a complete belief update may be computationally demanding, we extend the bounds to support reduction of both the state and the observation spaces. We demonstrate how our guarantees can be integrated with existing state-of-the-art solvers that sample a subset of states and observations. As a result, the returned solution holds deterministic bounds relative to the optimal policy. Lastly, we substantiate our findings with supporting experimental results.

arxiv情報

著者 Moran Barenboim,Vadim Indelman
発行日 2023-10-04 19:51:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク