Perception Stitching: Zero-Shot Perception Encoder Transfer for Visuomotor Robot Policies

要約

視覚ベースの模倣学習は、視覚的な観察によりロボットにさまざまな動作スキルを与える有望な能力を示しています。
しかし、現在の視覚運動政策は視覚観察の急激な変化に適応できていません。
視覚エンコーダの新しい組み合わせを直接ステッチすることで、大きな視覚変化に対する強力なゼロショット適応を可能にする知覚ステッチを紹介します。
私たちの重要なアイデアは、さまざまな視覚運動ポリシー間で潜在的な視覚機能を調整することにより、視覚エンコーダーのモジュール性を強化することです。
私たちの方法は、知覚知識と下流のモーションスキルの絡み合いを解き、部分的に異なる視覚条件で訓練されたポリシーネットワークに視覚エンコーダーを直接つなぎ合わせることで、視覚エンコーダーの再利用を可能にします。
さまざまなシミュレーションおよび現実世界の操作タスクでメソッドを評価します。
ベースライン手法はすべての試みで失敗しましたが、私たちの手法は現実世界の視覚運動タスクでゼロショット成功を達成することができました。
ポリシーネットワークの学習された特徴の定量的および定性的分析により、提案された方法の高いパフォーマンスについてのさらなる洞察が得られます。

要約(オリジナル)

Vision-based imitation learning has shown promising capabilities of endowing robots with various motion skills given visual observation. However, current visuomotor policies fail to adapt to drastic changes in their visual observations. We present Perception Stitching that enables strong zero-shot adaptation to large visual changes by directly stitching novel combinations of visual encoders. Our key idea is to enforce modularity of visual encoders by aligning the latent visual features among different visuomotor policies. Our method disentangles the perceptual knowledge with the downstream motion skills and allows the reuse of the visual encoders by directly stitching them to a policy network trained with partially different visual conditions. We evaluate our method in various simulated and real-world manipulation tasks. While baseline methods failed at all attempts, our method could achieve zero-shot success in real-world visuomotor tasks. Our quantitative and qualitative analysis of the learned features of the policy network provides more insights into the high performance of our proposed method.

arxiv情報

著者 Pingcheng Jian,Easop Lee,Zachary Bell,Michael M. Zavlanos,Boyuan Chen
発行日 2024-06-28 15:00:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク