要約
多くの逐次決定問題には、他の目的に制約を課しながら 1 つの目的関数を最適化することが含まれます。
制約付き部分観測可能マルコフ決定プロセス (C-POMDP) は、遷移の不確実性と部分観測可能性を使用してこのケースをモデル化します。
この研究では、C-POMDPが連続する決定ステップにわたって最適な下部構造特性に違反し、したがって一部の(安全性が重要な)アプリケーションにとって望ましくない動作を示す可能性があることを最初に示します。
さらに、C-POMDP でのオンライン再計画は、この違反によって生じる不一致のため、効果がないことがよくあります。
これらの欠点に対処するために、C-POMDP に追加の履歴依存のコスト制約を課す Recursively-Constrained POMDP (RC-POMDP) を導入します。
C-POMDP とは異なり、RC-POMDP には常に決定論的な最適ポリシーがあり、最適ポリシーはベルマンの最適性原理に従うことを示します。
また、RC-POMDP 用のポイントベースの動的プログラミング アルゴリズムも紹介します。
ベンチマーク問題の評価は、アルゴリズムの有効性を実証し、RC-POMDP のポリシーが C-POMDP のポリシーよりも望ましい動作を生み出すことを示しています。
要約(オリジナル)
Many sequential decision problems involve optimizing one objective function while imposing constraints on other objectives. Constrained Partially Observable Markov Decision Processes (C-POMDP) model this case with transition uncertainty and partial observability. In this work, we first show that C-POMDPs violate the optimal substructure property over successive decision steps and thus may exhibit behaviors that are undesirable for some (e.g., safety critical) applications. Additionally, online re-planning in C-POMDPs is often ineffective due to the inconsistency resulting from this violation. To address these drawbacks, we introduce the Recursively-Constrained POMDP (RC-POMDP), which imposes additional history-dependent cost constraints on the C-POMDP. We show that, unlike C-POMDPs, RC-POMDPs always have deterministic optimal policies and that optimal policies obey Bellman’s principle of optimality. We also present a point-based dynamic programming algorithm for RC-POMDPs. Evaluations on benchmark problems demonstrate the efficacy of our algorithm and show that policies for RC-POMDPs produce more desirable behaviors than policies for C-POMDPs.
arxiv情報
| 著者 | Qi Heng Ho,Tyler Becker,Benjamin Kraske,Zakariya Laouar,Martin S. Feather,Federico Rossi,Morteza Lahijanian,Zachary N. Sunberg |
| 発行日 | 2024-06-05 02:31:58+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google