要約
この論文では、自己教師ありビジョン トランスフォーマー モデルとその創発的な意味論的能力を活用して、模倣学習ポリシーの一般化能力を向上させます。
BC-ViT は、豊富な DINO の事前トレーニング済み Visual Transformer (ViT) パッチレベルの埋め込みを活用して、デモンストレーションを通じて学習するときにより一般化を高める模倣学習アルゴリズムです。
私たちの学習者は、外観の特徴を意味論的な概念にクラスタリングし、広範囲の外観のバリエーションやオブジェクトの種類にわたって一般化する安定したキーポイントを形成することによって世界を認識します。
この表現により、オブジェクト操作タスクの多様なデータセットにわたる模倣学習を評価することで、一般化された動作が可能になることを示します。
私たちの方法、データ、評価アプローチは、模倣学習者における一般化のさらなる研究を促進するために利用可能です。
要約(オリジナル)
In this paper we leverage self-supervised vision transformer models and their emergent semantic abilities to improve the generalization abilities of imitation learning policies. We introduce BC-ViT, an imitation learning algorithm that leverages rich DINO pre-trained Visual Transformer (ViT) patch-level embeddings to obtain better generalization when learning through demonstrations. Our learner sees the world by clustering appearance features into semantic concepts, forming stable keypoints that generalize across a wide range of appearance variations and object types. We show that this representation enables generalized behaviour by evaluating imitation learning across a diverse dataset of object manipulation tasks. Our method, data and evaluation approach are made available to facilitate further study of generalization in Imitation Learners.
arxiv情報
著者 | Wei-Di Chang,Francois Hogan,David Meger,Gregory Dudek |
発行日 | 2023-11-15 20:15:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google