SpawnNet: Learning Generalizable Visuomotor Skills from Pre-trained Networks

要約

既存のインターネット規模の画像およびビデオ データセットは、日常のさまざまな物体やタスクをカバーしており、広範な一般化が可能な学習ポリシーの可能性をもたらします。
これまでの研究では、さまざまな自己教師付き目標を備えた視覚的な事前トレーニングが検討されてきましたが、学習されたポリシーの一般化機能は比較的未知のままです。
この研究では、事前トレーニングされた表現が学習されたポリシーの一般化にどのように役立つかに焦点を当て、この課題に向けた最初の一歩を踏み出します。
まず、凍結された事前トレーニング済みのビジュアル バックボーンをポリシー学習に使用する際の主要なボトルネックを特定します。
次に、事前トレーニングされた多層表現を別のネットワークに融合して堅牢なポリシーを学習する新しい 2 ストリーム アーキテクチャである SpawnNet を提案します。
広範なシミュレーションおよび実際の実験を通じて、模倣学習設定における従来のアプローチと比較して、カテゴリカルな一般化が大幅に優れていることを実証しました。

要約(オリジナル)

The existing internet-scale image and video datasets cover a wide range of everyday objects and tasks, bringing the potential of learning policies that have broad generalization. Prior works have explored visual pre-training with different self-supervised objectives, but the generalization capabilities of the learned policies remain relatively unknown. In this work, we take the first step towards this challenge, focusing on how pre-trained representations can help the generalization of the learned policies. We first identify the key bottleneck in using a frozen pre-trained visual backbone for policy learning. We then propose SpawnNet, a novel two-stream architecture that learns to fuse pre-trained multi-layer representations into a separate network to learn a robust policy. Through extensive simulated and real experiments, we demonstrate significantly better categorical generalization compared to prior approaches in imitation learning settings.

arxiv情報

著者 Xingyu Lin,John So,Sashwat Mahalingam,Fangchen Liu,Pieter Abbeel
発行日 2023-07-07 13:01:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク