Real-Time Operator Takeover for Visuomotor Diffusion Policy Training

要約

我々は、リアルタイム・オペレータ・テイクオーバー(RTOT)パラダイムを提示し、オペレータがシームレスにライブ視覚運動拡散ポリシーの制御を行い、システムを望ましい状態に戻したり、特定のデモンストレーションを強化したりすることを可能にする。我々は、望ましくない状態を自動的に識別するためにマハロノビス距離を使用する新しい洞察を提示する。オペレータが介入してシステムを方向転換させると、制御はシームレスに政策に戻され、さらなる介入が必要になるまで、政策が行動を生成する。我々は、ターゲットとなるテイクオーバーのデモンストレーションを組み込むことで、同等の数の、しかしより長い最初のデモンストレーションのみを用いたトレーニングに比べて、ポリシーのパフォーマンスが大幅に改善されることを実証する。マハラノビス距離を使って分布外の状態を検出することの詳細な分析を提供し、実行中の重要な障害点を特定するための有用性を説明する。初期デモンストレーションとテイクオーバー・デモンストレーションのビデオ、およびすべてのライス・スクープ実験を含むサポート資料は、プロジェクトのウェブサイト(https://operator-takeover.github.io/)で入手可能である。

要約(オリジナル)

We present a Real-Time Operator Takeover (RTOT) paradigm enabling operators to seamlessly take control of a live visuomotor diffusion policy, guiding the system back into desirable states or reinforcing specific demonstrations. We presents new insights in using the Mahalonobis distance to automaicaly identify undesirable states. Once the operator has intervened and redirected the system, the control is seamlessly returned to the policy, which resumes generating actions until further intervention is required. We demonstrate that incorporating the targeted takeover demonstrations significantly improves policy performance compared to training solely with an equivalent number of, but longer, initial demonstrations. We provide an in-depth analysis of using the Mahalanobis distance to detect out-of-distribution states, illustrating its utility for identifying critical failure points during execution. Supporting materials, including videos of initial and takeover demonstrations and all rice-scooping experiments, are available on the project website: https://operator-takeover.github.io/

arxiv情報

著者 Nils Ingelhag,Jesper Munkeby,Michael C. Welle,Marco Moletta,Danica Kragic
発行日 2025-02-04 13:24:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, cs.RO パーマリンク