Stem-OB: Generalizable Visual Imitation Learning with Stem-Like Convergent Observation through Diffusion Inversion

要約

視覚模倣学習方法は強力なパフォーマンスを示しますが、照明やテクスチャの変化などの視覚入力の摂動に直面した場合には一般化が不十分であり、現実世界への応用が妨げられます。
我々は、事前学習された画像拡散モデルを利用して、高レベルのシーン構造を維持しながら低レベルの視覚的な違いを抑制するStem-OBを提案します。
この画像反転プロセスは、無関係な詳細を削除して、観察を共有表現に変換し、そこから他の観察が派生することに似ています。
Stem-OB は、追加のトレーニングを必要とせずに、さまざまな不特定の外観の変更に対して堅牢であるため、データ拡張アプローチとは対照的です。
私たちの方法は、シンプルでありながら非常に効果的なプラグアンドプレイ ソリューションです。
経験的な結果は、シミュレートされたタスクにおける私たちのアプローチの有効性を確認し、最良のベースラインと比較して成功率が平均 22.2% 増加するなど、現実世界のアプリケーションにおいて非常に大幅な改善を示しています。
詳細については、https://hukz18.github.io/Stem-Ob/ を参照してください。

要約(オリジナル)

Visual imitation learning methods demonstrate strong performance, yet they lack generalization when faced with visual input perturbations, including variations in lighting and textures, impeding their real-world application. We propose Stem-OB that utilizes pretrained image diffusion models to suppress low-level visual differences while maintaining high-level scene structures. This image inversion process is akin to transforming the observation into a shared representation, from which other observations stem, with extraneous details removed. Stem-OB contrasts with data-augmentation approaches as it is robust to various unspecified appearance changes without the need for additional training. Our method is a simple yet highly effective plug-and-play solution. Empirical results confirm the effectiveness of our approach in simulated tasks and show an exceptionally significant improvement in real-world applications, with an average increase of 22.2% in success rates compared to the best baseline. See https://hukz18.github.io/Stem-Ob/ for more info.

arxiv情報

著者 Kaizhe Hu,Zihang Rui,Yao He,Yuyao Liu,Pu Hua,Huazhe Xu
発行日 2024-11-13 08:32:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク