要約
Hamilton-Jacobi(HJ)Reachability Analysisは、自律システムの安全性とパフォーマンス保証を提供するための広く採用されている検証ツールです。
ただし、部分的な微分方程式(PDE)を解き、安全価値関数を計算することが含まれます。安全価値関数は、その計算とメモリの複雑さが状態の次元と指数関数的にスケーリングされ、大規模システムへの直接の適用が扱いにくいものです。
これらの課題を克服するために、最近提案された学習ベースのアプローチであるDeepReachは、ニューラルネットワーク(NNS)を使用して高次元の到達可能なチューブに近似しています。
効果的であることが示されていますが、学習されたソリューションの精度はシステムの複雑さとともに減少します。
この劣化の理由の1つは、学習プロセス中の安全性の制約のソフトな賦課であり、これはPDEの境界条件に対応し、不正確な値関数をもたらします。
この作業では、境界条件とNN出力の加重合計として全体的な値関数を再構築することにより、学習プロセス中に安全性の制約を正確に課す深いreachのバリアントであるExactBCを提案します。
さらに、提案されたバリアントは、トレーニングプロセス中に境界損失項を必要としなくなるため、異なる損失項のバランスをとる必要性を排除します。
4つの挑戦的な到達可能性タスクの学習価値関数の精度を大幅に改善する上で提案されたアプローチの有効性を実証します。状態リセットを備えたリムレスホイールシステム、散らかった環境での衝突回避、自律ロケット着陸、および複数の航空機の衝突回避です。
要約(オリジナル)
Hamilton-Jacobi (HJ) reachability analysis is a widely adopted verification tool to provide safety and performance guarantees for autonomous systems. However, it involves solving a partial differential equation (PDE) to compute a safety value function, whose computational and memory complexity scales exponentially with the state dimension, making its direct application to large-scale systems intractable. To overcome these challenges, DeepReach, a recently proposed learning-based approach, approximates high-dimensional reachable tubes using neural networks (NNs). While shown to be effective, the accuracy of the learned solution decreases with system complexity. One of the reasons for this degradation is a soft imposition of safety constraints during the learning process, which corresponds to the boundary conditions of the PDE, resulting in inaccurate value functions. In this work, we propose ExactBC, a variant of DeepReach that imposes safety constraints exactly during the learning process by restructuring the overall value function as a weighted sum of the boundary condition and the NN output. Moreover, the proposed variant no longer needs a boundary loss term during the training process, thus eliminating the need to balance different loss terms. We demonstrate the efficacy of the proposed approach in significantly improving the accuracy of the learned value function for four challenging reachability tasks: a rimless wheel system with state resets, collision avoidance in a cluttered environment, autonomous rocket landing, and multi-aircraft collision avoidance.
arxiv情報
著者 | Aditya Singh,Zeyuan Feng,Somil Bansal |
発行日 | 2025-05-09 12:37:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google