要約
部分観測可能マルコフ決定過程(POMDP)は、不確実性の下での逐次的な意思決定のために、多くのロボットアプリケーションで広く用いられている。部分観測可能モンテカルロ計画(POMCP)のようなPOMDPオンライン計画アルゴリズムは、期待リターンの最大化を目標に非常に大きなPOMDPを解くことができる。しかし、その結果得られる政策は、実世界のセーフティクリティカルなタスク(例えば、自律走行)にとって必須である安全性の保証を提供することはできない。本研究では、ほぼ確実な到達-回避仕様(すなわち、ゴール状態の集合に到達する確率は1、安全でない状態の集合に到達する確率は0)として表される安全要求を考える。我々は、ほぼ確実な到達回避仕様に違反するような安全でない行動を制限するシールドを計算する。そして、これらのシールドを安全なPOMDPオンライン計画のためのPOMCPアルゴリズムに統合する。我々は、スケーラビリティを向上させるために設計されたファクタ化されたバリエーションを含む、シールドの計算方法と統合方法が異なる4つの異なるシールド方法を提案する。一連のベンチマーク領域での実験結果から、提案する遮蔽手法は、大規模なPOMDPにおいて(遮蔽のないベースラインPOMCPとは異なり)安全性を保証することに成功し、オンライン計画の実行時間に無視できる程度の影響を与えることが実証された。
要約(オリジナル)
Partially observable Markov decision processes (POMDPs) have been widely used in many robotic applications for sequential decision-making under uncertainty. POMDP online planning algorithms such as Partially Observable Monte-Carlo Planning (POMCP) can solve very large POMDPs with the goal of maximizing the expected return. But the resulting policies cannot provide safety guarantees which are imperative for real-world safety-critical tasks (e.g., autonomous driving). In this work, we consider safety requirements represented as almost-sure reach-avoid specifications (i.e., the probability to reach a set of goal states is one and the probability to reach a set of unsafe states is zero). We compute shields that restrict unsafe actions which would violate the almost-sure reach-avoid specifications. We then integrate these shields into the POMCP algorithm for safe POMDP online planning. We propose four distinct shielding methods, differing in how the shields are computed and integrated, including factored variants designed to improve scalability. Experimental results on a set of benchmark domains demonstrate that the proposed shielding methods successfully guarantee safety (unlike the baseline POMCP without shielding) on large POMDPs, with negligible impact on the runtime for online planning.
arxiv情報
著者 | Shili Sheng,David Parker,Lu Feng |
発行日 | 2024-03-02 15:49:21+00:00 |
arxivサイト | arxiv_id(pdf) |