Recursively-Constrained Partially Observable Markov Decision Processes

要約

多くの問題では、他の目的に制約を課しながら目的関数を最適化することが望ましいです。
制約付き部分観測可能マルコフ決定プロセス (C-POMDP) を使用すると、遷移の不確実性と部分観測可能性の下でそのような問題をモデル化できます。
通常、C-POMDP の制約は、初期状態分布から始まる予想される累積コストのしきい値を強制します。
この研究では、最適な C-POMDP ポリシーがベルマンの最適性原理に違反する可能性があり、したがって一部の (安全性が重要な) アプリケーションにとっては望ましくない非直感的な動作を示す可能性があることを最初に示します。
さらに、C-POMDP を使用したオンライン再計画は、ベルマンの最適性原理の違反によって生じる不一致のため、効果がないことがよくあります。
これらの欠点に対処するために、C-POMDP に追加の履歴依存コスト制約を課す新しい定式化である Recursively-Constrained POMDP (RC-POMDP) を導入します。
C-POMDP とは異なり、RC-POMDP には常に決定論的な最適ポリシーがあり、最適ポリシーはベルマンの最適性原理に従うことを示します。
また、RC-POMDP に許容可能な最適に近いポリシーを合成するポイントベースの動的プログラミング アルゴリズムも提示します。
一連のベンチマーク問題の評価は、アルゴリズムの有効性を実証し、RC-POMDP のポリシーが C-POMDP のポリシーよりも望ましい動作を生み出すことを示しています。

要約(オリジナル)

In many problems, it is desirable to optimize an objective function while imposing constraints on some other objectives. A Constrained Partially Observable Markov Decision Process (C-POMDP) allows modeling of such problems under transition uncertainty and partial observability. Typically, the constraints in C-POMDPs enforce a threshold on expected cumulative costs starting from an initial state distribution. In this work, we first show that optimal C-POMDP policies may violate Bellman’s principle of optimality and thus may exhibit unintuitive behaviors, which can be undesirable for some (e.g., safety critical) applications. Additionally, online re-planning with C-POMDPs is often ineffective due to the inconsistency resulting from the violation of Bellman’s principle of optimality. To address these drawbacks, we introduce a new formulation: the Recursively-Constrained POMDP (RC-POMDP), that imposes additional history-dependent cost constraints on the C-POMDP. We show that, unlike C-POMDPs, RC-POMDPs always have deterministic optimal policies, and that optimal policies obey Bellman’s principle of optimality. We also present a point-based dynamic programming algorithm that synthesizes admissible near-optimal policies for RC-POMDPs. Evaluations on a set of benchmark problems demonstrate the efficacy of our algorithm and show that policies for RC-POMDPs produce more desirable behaviors than policies for C-POMDPs.

arxiv情報

著者 Qi Heng Ho,Tyler Becker,Benjamin Kraske,Zakariya Laouar,Martin S. Feather,Federico Rossi,Morteza Lahijanian,Zachary N. Sunberg
発行日 2023-12-20 14:45:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク