要約
ロボットの安全性を確保することは困難な場合があります。
ユーザー定義の制約はエッジケースを見逃す可能性があり、安全なデータからトレーニングされた場合でもポリシーが安全でなくなる可能性があり、安全性が主観的になる可能性があります。
したがって、安全でない行動を警告した人間に政策の軌跡を示すことで、ロボットの安全性について学びます。
このバイナリ フィードバックから、等角予測の統計的手法を使用して、潜在的に学習された潜在空間内にある、将来のポリシー エラーのユーザー指定の部分が含まれることが保証されている状態の領域を特定します。
私たちの方法は、最近傍分類に基づいており、等角予測で一般的なデータの保留を回避するため、サンプル効率が高くなります。
ロボットが危険と思われる領域に到達した場合に警告を発することで、保証されたミス率で人間の安全志向を模倣する警告システムが得られます。
私たちのシステムは、ビデオのラベル付けから、クアッドコプターの視覚モーター ポリシーが指定されたゲートを通過できない時期を検出できます。
安全ではないと思われる地域を回避することでポリシーを改善するためのアプローチを紹介します。
これにより、6 つのナビゲーション タスクにわたる 30 回のクアッドコプター飛行による実験テストで示されているように、モデル予測コントローラーの安全性が向上します。
コードとビデオが提供されます。
要約(オリジナル)
Ensuring robot safety can be challenging; user-defined constraints can miss edge cases, policies can become unsafe even when trained from safe data, and safety can be subjective. Thus, we learn about robot safety by showing policy trajectories to a human who flags unsafe behavior. From this binary feedback, we use the statistical method of conformal prediction to identify a region of states, potentially in learned latent space, guaranteed to contain a user-specified fraction of future policy errors. Our method is sample-efficient, as it builds on nearest neighbor classification and avoids withholding data as is common with conformal prediction. By alerting if the robot reaches the suspected unsafe region, we obtain a warning system that mimics the human’s safety preferences with guaranteed miss rate. From video labeling, our system can detect when a quadcopter visuomotor policy will fail to steer through a designated gate. We present an approach for policy improvement by avoiding the suspected unsafe region. With it we improve a model predictive controller’s safety, as shown in experimental testing with 30 quadcopter flights across 6 navigation tasks. Code and videos are provided.
arxiv情報
著者 | Aaron O. Feldman,Joseph A. Vincent,Maximilian Adang,Jun En Low,Mac Schwager |
発行日 | 2025-01-08 20:22:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google