Out-of-Distribution Recovery with Object-Centric Keypoint Inverse Policy For Visuomotor Imitation Learning

要約

視覚運動ポリシー学習における配布外 (OOD) シナリオの課題に対処するために、オブジェクト中心の回復ポリシー フレームワークを提案します。
以前の動作クローニング (BC) 手法は、大量のラベル付きデータ カバレッジに大きく依存しており、不慣れな空間状態では失敗します。
追加のデータ収集に依存することなく、私たちのアプローチは、元のトレーニング データ内のオブジェクト キーポイント多様体勾配から推論された逆ポリシーによって構築された回復ポリシーを学習します。
回復ポリシーは、特定の方法に依存せず、基本の visumotor BC ポリシーへのシンプルなアドオンとして機能し、システムをトレーニング配布に戻して、OOD 状況でもタスクの成功を保証します。
私たちは、シミュレーションと実際のロボット実験の両方でオブジェクト中心のフレームワークの有効性を実証し、OOD の基本ポリシーと比較して 77.7% の改善を達成しました。
プロジェクトのウェブサイト: https://sites.google.com/view/ocr-penn

要約(オリジナル)

We propose an object-centric recovery policy framework to address the challenges of out-of-distribution (OOD) scenarios in visuomotor policy learning. Previous behavior cloning (BC) methods rely heavily on a large amount of labeled data coverage, failing in unfamiliar spatial states. Without relying on extra data collection, our approach learns a recovery policy constructed by an inverse policy inferred from object keypoint manifold gradient in the original training data. The recovery policy serves as a simple add-on to any base visuomotor BC policy, agnostic to a specific method, guiding the system back towards the training distribution to ensure task success even in OOD situations. We demonstrate the effectiveness of our object-centric framework in both simulation and real robot experiments, achieving an improvement of 77.7% over the base policy in OOD. Project Website: https://sites.google.com/view/ocr-penn

arxiv情報

著者 George Jiayuan Gao,Tianyu Li,Nadia Figueroa
発行日 2024-11-06 17:53:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク