要約
一般的な信念依存の報酬を伴う継続的な POMDP は、オンラインで解決することが難しいことで知られています。
この論文では、特定の外部で構築された信念木と、探索手法を使用してその場で信念木を構築する MCTS の設定に対する適応型マルチレベル単純化の完全な証明可能な理論を提示します。
私たちの理論により、得られるソリューションの品質を犠牲にすることなく、信念に依存した報酬でPOMDP計画を加速することができます。
私たちは、提案された統一理論における各理論的主張を厳密に証明します。
一般的な理論結果を使用して、信念依存の報酬を備えた継続的な POMDP オンライン計画を加速する 3 つのアルゴリズムを紹介します。
私たちの 2 つのアルゴリズム、SITH-BSP と LAZY-SITH-BSP は、外部で信念木を構築するあらゆるメソッドの上で利用できます。
3 番目のアルゴリズムである SITH-PFT は、あらゆる探索手法をプラグインできるいつでも MCTS メソッドです。
すべてのメソッドは、単純化されていない同等のメソッドとまったく同じ最適なアクションを返すことが保証されています。
情報理論的な報酬のコストのかかる計算を、この論文で導出する独立した興味深い新しい適応上限と下限に置き換えます。
これらは計算が簡単で、アルゴリズムの要求に応じて強化できることを示します。
私たちのアプローチは一般的です。
つまり、報酬に単調に収束する境界を簡単にプラグインして、パフォーマンスを損なうことなく大幅な高速化を達成できます。
私たちの理論とアルゴリズムは、連続的な状態、アクション、観察の難しい設定をサポートします。
信念はパラメトリックまたは一般的なものであり、重み付けされた粒子によって表されます。
シミュレーションでは、同一のパフォーマンスが保証されたベースラインのアプローチと比較して、計画の大幅なスピードアップを実証します。
要約(オリジナル)
Continuous POMDPs with general belief-dependent rewards are notoriously difficult to solve online. In this paper, we present a complete provable theory of adaptive multilevel simplification for the setting of a given externally constructed belief tree and MCTS that constructs the belief tree on the fly using an exploration technique. Our theory allows to accelerate POMDP planning with belief-dependent rewards without any sacrifice in the quality of the obtained solution. We rigorously prove each theoretical claim in the proposed unified theory. Using the general theoretical results, we present three algorithms to accelerate continuous POMDP online planning with belief-dependent rewards. Our two algorithms, SITH-BSP and LAZY-SITH-BSP, can be utilized on top of any method that constructs a belief tree externally. The third algorithm, SITH-PFT, is an anytime MCTS method that permits to plug-in any exploration technique. All our methods are guaranteed to return exactly the same optimal action as their unsimplified equivalents. We replace the costly computation of information-theoretic rewards with novel adaptive upper and lower bounds which we derive in this paper, and are of independent interest. We show that they are easy to calculate and can be tightened by the demand of our algorithms. Our approach is general; namely, any bounds that monotonically converge to the reward can be easily plugged-in to achieve significant speedup without any loss in performance. Our theory and algorithms support the challenging setting of continuous states, actions, and observations. The beliefs can be parametric or general and represented by weighted particles. We demonstrate in simulation a significant speedup in planning compared to baseline approaches with guaranteed identical performance.
arxiv情報
著者 | Andrey Zhitnikov,Ori Sztyglic,Vadim Indelman |
発行日 | 2023-10-16 10:59:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google