Sparse tree search optimality guarantees in POMDPs with continuous observation spaces

要約

連続状態および観察空間を備えた部分観察可能なマルコフ決定プロセス (POMDP) は、現実世界の意思決定および制御の問題を表現するための強力な柔軟性を備えていますが、解決が難しいことで知られています。
観測尤度重み付けを使用する最近のオンライン サンプリング ベースのアルゴリズムは、連続観測空間を持つ領域で前例のない有効性を示しています。
ただし、この手法に対する正式な理論的根拠はありません。
この研究はそのような正当化を提供し、部分的に観測可能な重み付きスパース サンプリング (POWSS) という単純化されたアルゴリズムが高確率で正確に Q 値を推定し、計算能力を高めることで最適解に近い任意の値を実行できることを証明しました。

要約(オリジナル)

Partially observable Markov decision processes (POMDPs) with continuous state and observation spaces have powerful flexibility for representing real-world decision and control problems but are notoriously difficult to solve. Recent online sampling-based algorithms that use observation likelihood weighting have shown unprecedented effectiveness in domains with continuous observation spaces. However there has been no formal theoretical justification for this technique. This work offers such a justification, proving that a simplified algorithm, partially observable weighted sparse sampling (POWSS), will estimate Q-values accurately with high probability and can be made to perform arbitrarily near the optimal solution by increasing computational power.

arxiv情報

著者 Michael H. Lim,Claire J. Tomlin,Zachary N. Sunberg
発行日 2023-06-05 05:40:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO, cs.SY, eess.SY, stat.ML パーマリンク