ConstrainedZero: Chance-Constrained POMDP Planning using Learned Probabilistic Failure Surrogates and Adaptive Safety Constraints

要約

不確実な環境で安全に計画を立てるには、エージェントは実用性と安全上の制約のバランスを取る必要があります。
安全計画の問題は、偶然制約された部分的に観察可能なマルコフ決定プロセス (CC-POMDP) としてモデル化でき、ソリューションでは多くの場合、最適な値とアクション選択ポリシーを推定するために高価なロールアウトまたはヒューリスティックが使用されます。
この研究では、信念が与えられた場合の失敗確率を推定する追加のネットワーク ヘッドを使用して最適値とポリシーのニューラル ネットワーク近似を学習することにより、信念空間で CC-POMDP を解く ConstrainedZero ポリシー反復アルゴリズムを導入します。
この失敗確率は、オンライン モンテカルロ ツリー検索 (MCTS) 中の安全なアクションの選択に役立ちます。
故障推定に基づく検索が過度に強調されることを避けるために、計画中に適応等形推論を使用して故障しきい値を更新する $\Delta$-MCTS を導入します。
このアプローチは、安全性が重要な POMDP ベンチマーク、航空機衝突回避システム、安全な CO$_2$ 貯蔵の持続可能性問題でテストされます。
結果は、安全制約を目的から切り離すことで、報酬とコストのバランスを最適化することなく、目標レベルの安全を達成できることを示しています。

要約(オリジナル)

To plan safely in uncertain environments, agents must balance utility with safety constraints. Safe planning problems can be modeled as a chance-constrained partially observable Markov decision process (CC-POMDP) and solutions often use expensive rollouts or heuristics to estimate the optimal value and action-selection policy. This work introduces the ConstrainedZero policy iteration algorithm that solves CC-POMDPs in belief space by learning neural network approximations of the optimal value and policy with an additional network head that estimates the failure probability given a belief. This failure probability guides safe action selection during online Monte Carlo tree search (MCTS). To avoid overemphasizing search based on the failure estimates, we introduce $\Delta$-MCTS, which uses adaptive conformal inference to update the failure threshold during planning. The approach is tested on a safety-critical POMDP benchmark, an aircraft collision avoidance system, and the sustainability problem of safe CO$_2$ storage. Results show that by separating safety constraints from the objective we can achieve a target level of safety without optimizing the balance between rewards and costs.

arxiv情報

著者 Robert J. Moss,Arec Jamgochian,Johannes Fischer,Anthony Corso,Mykel J. Kochenderfer
発行日 2024-05-01 17:17:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク