要約
カメラ画像などの高次元で継続的な観察を使用して、部分的に観察可能なマルコフ決定プロセス (POMDP) を解決することは、現実のロボット工学や計画の問題の多くに必要です。
最近の研究では、観測モデルとして機械学習された確率モデルが提案されていますが、それらを使用すると、現時点ではオンライン展開するには計算コストが高すぎます。
私たちは、ソリューションの品質についての正式な保証を維持しながら、計画に簡素化された観測モデルを使用することがどのような影響を与えるかという問題に取り組みます。
私たちの主な貢献は、単純化されたモデルの統計的な合計変動距離に基づいた新しい確率的限界です。
これが理論上の POMDP 値の限界を示すことを示します。
粒子信念 MDP 濃度限界の最近の結果を一般化することにより、単純化モデルによる経験的計画値から元のモデルを作成します。
私たちの計算はオフライン部分とオンライン部分に分けることができ、計画中に高価なモデルにまったくアクセスすることなく正式な保証に到達します。これも新しい結果です。
最後に、既存の連続オンライン POMDP ソルバーのルーチンに境界を統合する方法をシミュレーションで示します。
要約(オリジナル)
Solving partially observable Markov decision processes (POMDPs) with high dimensional and continuous observations, such as camera images, is required for many real life robotics and planning problems. Recent researches suggested machine learned probabilistic models as observation models, but their use is currently too computationally expensive for online deployment. We deal with the question of what would be the implication of using simplified observation models for planning, while retaining formal guarantees on the quality of the solution. Our main contribution is a novel probabilistic bound based on a statistical total variation distance of the simplified model. We show that it bounds the theoretical POMDP value w.r.t. original model, from the empirical planned value with the simplified model, by generalizing recent results of particle-belief MDP concentration bounds. Our calculations can be separated into offline and online parts, and we arrive at formal guarantees without having to access the costly model at all during planning, which is also a novel result. Finally, we demonstrate in simulation how to integrate the bound into the routine of an existing continuous online POMDP solver.
arxiv情報
著者 | Idan Lev-Yehudi,Moran Barenboim,Vadim Indelman |
発行日 | 2024-01-27 12:43:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google