要約
部分的に観測可能なドメインでの不確実性の下でのオンライン意思決定 (信念空間計画とも呼ばれます) は、ロボット工学と人工知能の基本的な問題です。
もっともらしい将来の解明が豊富にあるため、最適な行動方針を計算するには、エージェントに膨大な計算負荷がかかります。
さらに、情報収集などの多くのシナリオでは、信念に依存する制約を導入する必要があります。
この要求に促されて、この論文では、最近導入された確率論的信念依存の制約付き POMDP を検討します。
将来の観測サンプルの完全なセットを拡張する前に、精度を損なうことなく、確率論的信念に依存する制約に関して候補アクションシーケンスを適応的に受け入れるか破棄する手法を提示します。
さらに、提案されたフレームワークを使用して、大幅な加速を伴う候補アクション シーケンスのバリュー アット リスクの観点から、実行可能な最大リターン (情報ゲインなど) を見つけるための適応方法に貢献します。
その上で、確率的に制約された設定のための適応単純化手法を紹介します。
このようなアプローチは、オンラインでの意思決定を劇的に加速させながら、同等の品質のソリューションを確実に返します。
私たちの普遍的なフレームワークは、パラメトリックな信念と、粒子によって表されるノンパラメトリックな信念を持つ、信念に依存する制約付きの連続 POMDP に適用されます。
情報理論的制約のコンテキストでは、提示されたフレームワークは、計画範囲に沿った累積情報ゲインが十分に重要であるかどうかを確率的に定量化します(たとえば、情報収集、アクティブSLAMの場合)。
高次元の信念空間計画の非常に困難な問題であるアクティブSLAMに私たちの方法を適用します。
広範な現実的なシミュレーションは、提案されたアイデアの優位性を裏付けています。
要約(オリジナル)
Online decision making under uncertainty in partially observable domains, also known as Belief Space Planning, is a fundamental problem in robotics and Artificial Intelligence. Due to an abundance of plausible future unravelings, calculating an optimal course of action inflicts an enormous computational burden on the agent. Moreover, in many scenarios, e.g., information gathering, it is required to introduce a belief-dependent constraint. Prompted by this demand, in this paper, we consider a recently introduced probabilistic belief-dependent constrained POMDP. We present a technique to adaptively accept or discard a candidate action sequence with respect to a probabilistic belief-dependent constraint, before expanding a complete set of future observations samples and without any loss in accuracy. Moreover, using our proposed framework, we contribute an adaptive method to find a maximal feasible return (e.g., information gain) in terms of Value at Risk for the candidate action sequence with substantial acceleration. On top of that, we introduce an adaptive simplification technique for a probabilistically constrained setting. Such an approach provably returns an identical-quality solution while dramatically accelerating online decision making. Our universal framework applies to any belief-dependent constrained continuous POMDP with parametric beliefs, as well as nonparametric beliefs represented by particles. In the context of an information-theoretic constraint, our presented framework stochastically quantifies if a cumulative information gain along the planning horizon is sufficiently significant (e.g. for, information gathering, active SLAM). We apply our method to active SLAM, a highly challenging problem of high dimensional Belief Space Planning. Extensive realistic simulations corroborate the superiority of our proposed ideas.
arxiv情報
著者 | Andrey Zhitnikov,Vadim Indelman |
発行日 | 2023-02-13 21:22:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google