要約
柔軟かつ安全な模倣学習 (IL) のために、安全な生成連続ポリシーの閉形式の確率密度/勾配、エンドツーエンドの生成的敵対的トレーニング、および最悪の場合を可能にする安全層を備えた理論とモジュール方式を提案します。
-ケースの安全性を保証します。
安全レイヤーは、すべてのアクションを安全なアクションのセットにマッピングし、変数の変更式と密度のメジャーの加法性を使用します。
安全なアクションのセットは、最初にフォールバック操作の敵対的到達可能性分析を通じてアクションの有限サンプルの安全性をチェックし、次にリプシッツ連続性などを使用してこれらのアクションの近傍の安全性を結論付けることによって推論されます。
安全層をテスト時のみに使用する場合 (二次誤差まで) と比較して、トレーニング中にすでに安全層を使用する場合 (水平線で線形の模倣誤差) の堅牢性の利点を示す理論分析を提供します。
現実世界のドライバーの対話データに関する実験では、私たちのアプローチの扱いやすさ、安全性、および模倣性能を経験的に実証します。
要約(オリジナル)
For flexible yet safe imitation learning (IL), we propose theory and a modular method, with a safety layer that enables a closed-form probability density/gradient of the safe generative continuous policy, end-to-end generative adversarial training, and worst-case safety guarantees. The safety layer maps all actions into a set of safe actions, and uses the change-of-variables formula plus additivity of measures for the density. The set of safe actions is inferred by first checking safety of a finite sample of actions via adversarial reachability analysis of fallback maneuvers, and then concluding on the safety of these actions’ neighborhoods using, e.g., Lipschitz continuity. We provide theoretical analysis showing the robustness advantage of using the safety layer already during training (imitation error linear in the horizon) compared to only using it at test time (up to quadratic error). In an experiment on real-world driver interaction data, we empirically demonstrate tractability, safety and imitation performance of our approach.
arxiv情報
著者 | Philipp Geiger,Christoph-Nikolas Straehle |
発行日 | 2023-07-28 13:38:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google