Model-Based Runtime Monitoring with Interactive Imitation Learning

要約

ロボットの学習方法は最近大きく進歩しましたが、一般化と堅牢性の課題が依然としてその広範な導入を妨げています。
潜在的な障害を検出して対処できなければ、最先端の学習システムは一か八かのタスクに対応できなくなります。
インタラクティブな模倣学習の最近の進歩により、人間とロボットのチーム化のための有望なフレームワークが提示され、ロボットが安全に動作し、長期間の導入にわたってパフォーマンスを継続的に向上できるようになりました。
それにもかかわらず、既存の方法は通常、人間による継続的な監視と先制フィードバックを必要とし、現実的な領域での実用性が制限されています。
この研究の目的は、タスク実行中のエラーを監視および検出する能力をロボットに与えることです。
導入データから学習してシステムの異常を検出し、障害を予測するモデルベースのランタイム監視アルゴリズムを導入します。
将来の故障を予測できない、またはトレーニングに故障経験が必要な従来の研究とは異なり、私たちの手法は潜在空間ダイナミクス モデルと故障分類子を学習するため、将来のアクションの結果をシミュレートし、分布外および高リスクの状態を先制的に検出できるようになります。

私たちは対話型の模倣学習フレームワーク内でメソッドをトレーニングし、信頼できる展開を使用して収集された人間とロボットのチームの経験からモデルを継続的に更新します。
その結果、私たちの方法は、信頼性の高いタスクの実行を保証しながら、時間の経過とともに必要となる人間の作業負荷を軽減します。
私たちの手法は、システムレベルと単体テストのメトリクス全体でベースラインを上回り、シミュレーションと物理ハードウェアでそれぞれ 23% と 40% 高い成功率を示しました。
詳細については、https://ut-austin-rpl.github.io/sirius-runtime-monitor/ をご覧ください。

要約(オリジナル)

Robot learning methods have recently made great strides, but generalization and robustness challenges still hinder their widespread deployment. Failing to detect and address potential failures renders state-of-the-art learning systems not combat-ready for high-stakes tasks. Recent advances in interactive imitation learning have presented a promising framework for human-robot teaming, enabling the robots to operate safely and continually improve their performances over long-term deployments. Nonetheless, existing methods typically require constant human supervision and preemptive feedback, limiting their practicality in realistic domains. This work aims to endow a robot with the ability to monitor and detect errors during task execution. We introduce a model-based runtime monitoring algorithm that learns from deployment data to detect system anomalies and anticipate failures. Unlike prior work that cannot foresee future failures or requires failure experiences for training, our method learns a latent-space dynamics model and a failure classifier, enabling our method to simulate future action outcomes and detect out-of-distribution and high-risk states preemptively. We train our method within an interactive imitation learning framework, where it continually updates the model from the experiences of the human-robot team collected using trustworthy deployments. Consequently, our method reduces the human workload needed over time while ensuring reliable task execution. Our method outperforms the baselines across system-level and unit-test metrics, with 23% and 40% higher success rates in simulation and on physical hardware, respectively. More information at https://ut-austin-rpl.github.io/sirius-runtime-monitor/

arxiv情報

著者 Huihan Liu,Shivin Dass,Roberto Martín-Martín,Yuke Zhu
発行日 2023-10-26 16:45:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク