Simplified POMDP Planning with an Alternative Observation Space and Formal Performance Guarantees

要約

部分的に観測可能な領域における不確実性の下でのオンライン計画は、ロボット工学と AI において不可欠な機能です。
部分観察可能なマルコフ決定プロセス (POMDP) は、この困難な状況における意思決定の問題に対処するための数学的原理に基づいたフレームワークです。
ただし、POMDP の最適解を見つけるには計算コストがかかり、小さな問題に対してのみ実現可能です。
この研究では、代替のよりコンパクトな観測空間と簡素化されたモデルに切り替えることで、POMDP を簡素化する新しい方法を提供し、正式なパフォーマンス保証を備えた計画の迅速化を実現します。
ビリーフ ツリー トポロジの概念を導入します。これは、元の観測空間と代替の観測空間とモデルを使用するツリー内のレベルと分岐をエンコードします。
各ビリーフ ツリー トポロジには、独自のポリシー スペースとプランニング パフォーマンスが付属しています。
私たちの主な貢献は、元の POMDP の最適な Q 関数と、対応する単純化されたポリシー空間を備えた特定のトポロジーによって定義された単純化されたツリーとの間の境界を導出することです。
これらの境界は、元の POMDP の最適なアクションが決定されるまで、異なるツリー トポロジ間の適応メカニズムとして使用されます。
さらに、代替の観察空間とモデルが状態が完全に観察可能な設定に対応する、フレームワークの特定のインスタンス化を検討します。
正確および近似の POMDP ソルバーを考慮して、シミュレーションでアプローチを評価し、ソリューションの品質を維持しながら大幅な高速化を実証します。
私たちは、この取り組みにより、正式なパフォーマンス保証を備えたオンライン POMDP 計画に新たなエキサイティングな道が開かれると信じています。

要約(オリジナル)

Online planning under uncertainty in partially observable domains is an essential capability in robotics and AI. The partially observable Markov decision process (POMDP) is a mathematically principled framework for addressing decision-making problems in this challenging setting. However, finding an optimal solution for POMDPs is computationally expensive and is feasible only for small problems. In this work, we contribute a novel method to simplify POMDPs by switching to an alternative, more compact, observation space and simplified model to speedup planning with formal performance guarantees. We introduce the notion of belief tree topology, which encodes the levels and branches in the tree that use the original and alternative observation space and models. Each belief tree topology comes with its own policy space and planning performance. Our key contribution is to derive bounds between the optimal Q-function of the original POMDP and the simplified tree defined by a given topology with a corresponding simplified policy space. These bounds are then used as an adaptation mechanism between different tree topologies until the optimal action of the original POMDP can be determined. Further, we consider a specific instantiation of our framework, where the alternative observation space and model correspond to a setting where the state is fully observable. We evaluate our approach in simulation, considering exact and approximate POMDP solvers and demonstrating a significant speedup while preserving solution quality. We believe this work opens new exciting avenues for online POMDP planning with formal performance guarantees.

arxiv情報

著者 Da Kong,Vadim Indelman
発行日 2024-10-11 04:58:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク