要約
既存のインターネット規模の画像およびビデオ データセットは、日常のさまざまな物体やタスクをカバーしており、広範な一般化が可能な学習ポリシーの可能性をもたらします。
これまでの研究では、さまざまな自己教師付き目標を備えた視覚的な事前トレーニングが検討されてきましたが、学習されたポリシーの一般化機能は比較的未知のままです。
この研究では、事前トレーニングされた表現が学習されたポリシーの一般化にどのように役立つかに焦点を当て、この課題に向けた最初の一歩を踏み出します。
まず、凍結された事前トレーニング済みのビジュアル バックボーンをポリシー学習に使用する際の主要なボトルネックを特定します。
次に、事前トレーニングされた多層表現を別のネットワークに融合して堅牢なポリシーを学習する新しい 2 ストリーム アーキテクチャである SpawnNet を提案します。
広範なシミュレーションおよび実際の実験を通じて、模倣学習設定における従来のアプローチと比較して、カテゴリカルな一般化が大幅に優れていることを実証しました。
要約(オリジナル)
The existing internet-scale image and video datasets cover a wide range of everyday objects and tasks, bringing the potential of learning policies that have broad generalization. Prior works have explored visual pre-training with different self-supervised objectives, but the generalization capabilities of the learned policies remain relatively unknown. In this work, we take the first step towards this challenge, focusing on how pre-trained representations can help the generalization of the learned policies. We first identify the key bottleneck in using a frozen pre-trained visual backbone for policy learning. We then propose SpawnNet, a novel two-stream architecture that learns to fuse pre-trained multi-layer representations into a separate network to learn a robust policy. Through extensive simulated and real experiments, we demonstrate significantly better categorical generalization compared to prior approaches in imitation learning settings.
arxiv情報
著者 | Xingyu Lin,John So,Sashwat Mahalingam,Fangchen Liu,Pieter Abbeel |
発行日 | 2023-07-07 13:01:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google