要約
制約付き部分観察可能なマルコフ決定プロセス (CPOMDP) の最適計画は、ハードコスト制約を満たしながら報酬目標を最大化し、状態と遷移の不確実性の下での安全な計画を一般化します。
残念ながら、大規模な問題領域や継続的な問題領域では、オンライン CPOMDP 計画を立てることは非常に困難です。
多くの大規模なロボット ドメインでは、階層的な分解により、高レベルのアクション プリミティブ (オプション) を与えられた低レベルの制御用のツールを使用して計画を簡素化できます。
この階層を活用し、オンライン検索ベースの CPOMDP 計画を大規模なロボットの問題にまで拡張するために、制約付きオプション信念ツリー検索 (COBeTS) を導入します。
割り当てられた制約バジェットを満たすようにプリミティブ オプション コントローラーが定義されている場合、COBeTS はいつでも制約を満たすことを示します。
それ以外の場合、COBeTS はオプション プリミティブの安全なシーケンスに向けて検索をガイドし、階層監視を使用して実行時の安全性を実現できます。
我々は、いくつかのセーフティクリティカルで制約のある部分的に観察可能なロボットドメインでCOBeTSを実証し、非階層ベースラインでは計画できない一方で、連続CPOMDPでは計画を成功させることができることを示した。
要約(オリジナル)
Optimal plans in Constrained Partially Observable Markov Decision Processes (CPOMDPs) maximize reward objectives while satisfying hard cost constraints, generalizing safe planning under state and transition uncertainty. Unfortunately, online CPOMDP planning is extremely difficult in large or continuous problem domains. In many large robotic domains, hierarchical decomposition can simplify planning by using tools for low-level control given high-level action primitives (options). We introduce Constrained Options Belief Tree Search (COBeTS) to leverage this hierarchy and scale online search-based CPOMDP planning to large robotic problems. We show that if primitive option controllers are defined to satisfy assigned constraint budgets, then COBeTS will satisfy constraints anytime. Otherwise, COBeTS will guide the search towards a safe sequence of option primitives, and hierarchical monitoring can be used to achieve runtime safety. We demonstrate COBeTS in several safety-critical, constrained partially observable robotic domains, showing that it can plan successfully in continuous CPOMDPs while non-hierarchical baselines cannot.
arxiv情報
著者 | Arec Jamgochian,Hugo Buurmeijer,Kyle H. Wray,Anthony Corso,Mykel J. Kochenderfer |
発行日 | 2023-10-30 22:16:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google