要約
セーフティクリティカルな自律システムの開発において、故障確率の推定は重要なステップである。モンテカルロ・サンプリングのような直接的な推定方法は、これらのシステムでは故障が稀であるため、しばしば非現実的である。既存の重要度サンプリング手法は、大きな状態空間と長いホライズンを持つ逐次的な意思決定システムには適用できない。我々はこれらの限界に対処するために適応的重要度サンプリングアルゴリズムを提案する。我々の手法は、状態依存の提案分布と最適重要度サンプリング分布の緩和形との間の前方カルバック・ライブラー発散を最小化する。本手法では、この目的を推定するためにマルコフスコア上昇法を用いる。4つのシーケンシャルシステムで我々の手法を評価し、ベースラインのモンテカルロ法や重要度サンプリング法よりも正確な故障確率推定が可能であることを示す。この研究はオープンソースである。
要約(オリジナル)
Estimating the probability of failure is a critical step in developing safety-critical autonomous systems. Direct estimation methods such as Monte Carlo sampling are often impractical due to the rarity of failures in these systems. Existing importance sampling approaches do not scale to sequential decision-making systems with large state spaces and long horizons. We propose an adaptive importance sampling algorithm to address these limitations. Our method minimizes the forward Kullback-Leibler divergence between a state-dependent proposal distribution and a relaxed form of the optimal importance sampling distribution. Our method uses Markov score ascent methods to estimate this objective. We evaluate our approach on four sequential systems and show that it provides more accurate failure probability estimates than baseline Monte Carlo and importance sampling techniques. This work is open sourced.
arxiv情報
著者 | Harrison Delecki,Sydney M. Katz,Mykel J. Kochenderfer |
発行日 | 2024-12-03 04:28:58+00:00 |
arxivサイト | arxiv_id(pdf) |