要約
行動クローニング (BC) は、模倣学習で広く使用されているアプローチであり、ロボットが専門のスーパーバイザーを観察することで制御ポリシーを学習します。
ただし、学習されたポリシーではエラーが発生し、安全性違反につながる可能性があるため、安全性が重要なロボット アプリケーションでの有用性は制限されます。
これまでの研究では、追加の実際または合成アクション ラベル、敵対的トレーニング、または実行時フィルタリングを通じて BC ポリシーの改善を試みてきましたが、トレーニング中の BC ポリシーの安全性違反の削減に明示的に焦点を当てたものはありませんでした。
私たちは、安全性を意識した動作の複製ポリシーを学習するための設計時手法である SAFE-GIL を提案します。
SAFE-GIL は、データ収集中にシステムに敵対的な妨害を意図的に注入して、専門家を安全性が重要な状態に誘導します。
この妨害注入は、システムがテスト中に遭遇する可能性のある潜在的なポリシー エラーをシミュレートします。
安全性が重要な状態での専門家の行動をトレーニングでより厳密に再現することで、テスト中にポリシーのエラーがあったにもかかわらず、私たちのアプローチはより安全なポリシーを実現します。
我々はさらに、この敵対的妨害を計算するための到達可能性ベースの方法を開発します。
私たちは、自律地上ナビゲーション、航空機のタキシング、クアッドローター テストベッドでの空中ナビゲーションの 3 つの領域で、SAFE-GIL をさまざまな動作クローン技術およびオンライン安全フィルタリング手法と比較します。
私たちの方法は、特に学習エラー、したがって安全違反の可能性が高い低データ領域において、安全性の失敗が大幅に減少することを示しています。
私たちのウェブサイトはこちらからご覧ください: https://y-u-c.github.io/safegil/
要約(オリジナル)
Behavior cloning (BC) is a widely-used approach in imitation learning, where a robot learns a control policy by observing an expert supervisor. However, the learned policy can make errors and might lead to safety violations, which limits their utility in safety-critical robotics applications. While prior works have tried improving a BC policy via additional real or synthetic action labels, adversarial training, or runtime filtering, none of them explicitly focus on reducing the BC policy’s safety violations during training time. We propose SAFE-GIL, a design-time method to learn safety-aware behavior cloning policies. SAFE-GIL deliberately injects adversarial disturbance in the system during data collection to guide the expert towards safety-critical states. This disturbance injection simulates potential policy errors that the system might encounter during the test time. By ensuring that training more closely replicates expert behavior in safety-critical states, our approach results in safer policies despite policy errors during the test time. We further develop a reachability-based method to compute this adversarial disturbance. We compare SAFE-GIL with various behavior cloning techniques and online safety-filtering methods in three domains: autonomous ground navigation, aircraft taxiing, and aerial navigation on a quadrotor testbed. Our method demonstrates a significant reduction in safety failures, particularly in low data regimes where the likelihood of learning errors, and therefore safety violations, is higher. See our website here: https://y-u-c.github.io/safegil/
arxiv情報
著者 | Yusuf Umut Ciftci,Darren Chiu,Zeyuan Feng,Gaurav S. Sukhatme,Somil Bansal |
発行日 | 2024-11-19 00:05:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google