要約
画像条件付きロボット ポリシーを学習する際の主な課題は、低レベルの制御に役立つ視覚的表現を取得することです。
画像空間は高次元であるため、適切な視覚表現を学習するには、かなりの量の視覚データが必要です。
ただし、現実世界で学習する場合、データは高価です。
Sim2Real は、シミュレーターを使用してターゲット タスクに密接に関連する大量の安価なデータを収集することで、現実世界のターゲット ドメインにおけるデータ不足を克服するための有望なパラダイムです。
ただし、ドメインが視覚的に非常に似ていない場合、画像条件付きポリシーをシミュレーションから現実に移行するのは困難です。
sim2real の視覚的なギャップを埋めるために、根底にあるタスク関連のセマンティクスを捉えるドメイン全体の統一信号として画像の自然言語記述を使用することを提案します。
私たちの重要な洞察は、異なるドメインからの 2 つの画像観察が同様の言語でラベル付けされている場合、ポリシーは両方の画像に対して同様のアクション分布を予測するはずであるということです。
我々は、シミュレーションや実際の画像の言語記述や記述間の距離を予測するために画像エンコーダをトレーニングすることが、ドメイン不変の画像表現の学習に役立つ有用でデータ効率の高い事前トレーニングステップとして機能することを実証します。
この画像エンコーダを、大量のシミュレーションと少数の実際のデモンストレーションで同時にトレーニングされる IL ポリシーのバックボーンとして使用できます。
私たちのアプローチは、広く使用されている以前の sim2real メソッドや、CLIP や R3M などの強力なビジョン言語事前トレーニング ベースラインよりも 25 ~ 40% 優れています。
要約(オリジナル)
The main challenge in learning image-conditioned robotic policies is acquiring a visual representation conducive to low-level control. Due to the high dimensionality of the image space, learning a good visual representation requires a considerable amount of visual data. However, when learning in the real world, data is expensive. Sim2Real is a promising paradigm for overcoming data scarcity in the real-world target domain by using a simulator to collect large amounts of cheap data closely related to the target task. However, it is difficult to transfer an image-conditioned policy from sim to real when the domains are very visually dissimilar. To bridge the sim2real visual gap, we propose using natural language descriptions of images as a unifying signal across domains that captures the underlying task-relevant semantics. Our key insight is that if two image observations from different domains are labeled with similar language, the policy should predict similar action distributions for both images. We demonstrate that training the image encoder to predict the language description or the distance between descriptions of a sim or real image serves as a useful, data-efficient pretraining step that helps learn a domain-invariant image representation. We can then use this image encoder as the backbone of an IL policy trained simultaneously on a large amount of simulated and a handful of real demonstrations. Our approach outperforms widely used prior sim2real methods and strong vision-language pretraining baselines like CLIP and R3M by 25 to 40%.
arxiv情報
著者 | Albert Yu,Adeline Foote,Raymond Mooney,Roberto Martín-Martín |
発行日 | 2024-05-16 12:02:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google