要約
模倣学習は、複雑な視覚運動ポリシーをトレーニングするための強力なツールであることが証明されています。
ただし、現在の方法では、高次元の視覚観察を処理するには、多くの場合、数百から数千の専門家のデモンストレーションが必要です。
データ効率が低い主な理由は、視覚表現の大部分がドメイン外のデータで事前トレーニングされているか、動作複製目標を通じて直接トレーニングされているためです。
この研究では、視覚表現を学習するための新しいドメイン内自己教師型手法である DynaMo を紹介します。
一連の専門家のデモンストレーションを受けて、私たちは一連の画像埋め込みを通じて潜在逆ダイナミクス モデルと順ダイナミクス モデルを共同学習し、拡張や対比サンプリング、グラウンド トゥルース アクションへのアクセスを行わずに、潜在空間内の次のフレームを予測します。
重要なのは、DynaMo は、インターネット データセットやクロスボディ データセットなどのドメイン外データを必要としないことです。
6 つのシミュレートされた実際の環境スイートで、DynaMo で学習された表現は、以前の自己教師あり学習目標や事前トレーニングされた表現と比較して、下流の模倣学習パフォーマンスを大幅に向上させることを示します。
DynaMo を使用することで得られるメリットは、Behavior Transformer、Diffusion Policy、MLP、最近傍ポリシーなどのポリシー クラス全体に保持されます。
最後に、DynaMo の主要コンポーネントをアブレーションし、下流のポリシーのパフォーマンスに対するその影響を測定します。
ロボットのビデオは https://dynamo-ssl.github.io でご覧いただくのが最適です。
要約(オリジナル)
Imitation learning has proven to be a powerful tool for training complex visuomotor policies. However, current methods often require hundreds to thousands of expert demonstrations to handle high-dimensional visual observations. A key reason for this poor data efficiency is that visual representations are predominantly either pretrained on out-of-domain data or trained directly through a behavior cloning objective. In this work, we present DynaMo, a new in-domain, self-supervised method for learning visual representations. Given a set of expert demonstrations, we jointly learn a latent inverse dynamics model and a forward dynamics model over a sequence of image embeddings, predicting the next frame in latent space, without augmentations, contrastive sampling, or access to ground truth actions. Importantly, DynaMo does not require any out-of-domain data such as Internet datasets or cross-embodied datasets. On a suite of six simulated and real environments, we show that representations learned with DynaMo significantly improve downstream imitation learning performance over prior self-supervised learning objectives, and pretrained representations. Gains from using DynaMo hold across policy classes such as Behavior Transformer, Diffusion Policy, MLP, and nearest neighbors. Finally, we ablate over key components of DynaMo and measure its impact on downstream policy performance. Robot videos are best viewed at https://dynamo-ssl.github.io
arxiv情報
著者 | Zichen Jeff Cui,Hengkai Pan,Aadhithya Iyer,Siddhant Haldar,Lerrel Pinto |
発行日 | 2024-09-18 17:59:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google