要約
深層強化学習 (DRL) は、ロボット工学と自律システム (RAS) において目覚ましいパフォーマンスを達成しました。
実際の運用に導入する際の主な課題は、安全でないように見せかけた DRL ポリシーの存在です。
未調査の状態により、特に DRL でトレーニングされたエンドツーエンド コントローラーが RAS の動作を制御するアプリケーションでは、エージェントが誤った決定を下して危険が生じる可能性があります。
この論文では、ニューラル ネットワークの形式的な信頼性分析から生成された検証証拠を活用した、DRL 制御 RAS の新しい定量的信頼性評価フレームワークを提案します。
環境ノイズや状態変化などによる不正確な観測に対する安全性をチェックするために、2レベルの検証フレームワークが導入されています。
到達可能性検証ツールは、軌道の安全性の証拠を生成するためにローカルで活用されます。
対照的に、グローバルレベルでは、一連の個別のタスクとその発生確率に対応する、ローカルな安全性証拠の集約された指標として全体的な信頼性を定量化します。
提案された検証フレームワークの有効性は、実際の RAS での実験を通じて実証および検証されます。
要約(オリジナル)
Deep Reinforcement Learning (DRL) has achieved impressive performance in robotics and autonomous systems (RAS). A key challenge to its deployment in real-life operations is the presence of spuriously unsafe DRL policies. Unexplored states may lead the agent to make wrong decisions that could result in hazards, especially in applications where DRL-trained end-to-end controllers govern the behaviour of RAS. This paper proposes a novel quantitative reliability assessment framework for DRL-controlled RAS, leveraging verification evidence generated from formal reliability analysis of neural networks. A two-level verification framework is introduced to check the safety property with respect to inaccurate observations that are due to, e.g., environmental noise and state changes. Reachability verification tools are leveraged locally to generate safety evidence of trajectories. In contrast, at the global level, we quantify the overall reliability as an aggregated metric of local safety evidence, corresponding to a set of distinct tasks and their occurrence probabilities. The effectiveness of the proposed verification framework is demonstrated and validated via experiments on real RAS.
arxiv情報
著者 | Yi Dong,Xingyu Zhao,Sen Wang,Xiaowei Huang |
発行日 | 2024-01-29 21:25:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google