要約
大規模な実世界データを使用した視覚的な事前トレーニングは近年大きく進歩し、ピクセル観察によるロボット学習に大きな可能性を示しています。
ただし、ロボット操作タスクのための視覚的な事前トレーニングのレシピはまだ構築されていません。
この論文では、事前トレーニング データセット、モデル アーキテクチャ、トレーニング方法という 3 つの基本的な観点から、視覚的な事前トレーニング戦略がロボット操作タスクに及ぼす影響を徹底的に調査します。
ロボットの学習に有益ないくつかの重要な実験結果が提供されています。
さらに、自己教師あり学習と教師あり学習を組み合わせた、Vi-PRoMと呼ばれるロボット操作のための視覚的事前学習スキームを提案します。
具体的には、前者は対照学習を利用して大規模なラベルなしデータから根底にあるパターンを取得し、後者は視覚的な意味論と時間的ダイナミクスの学習を目的としています。
さまざまなシミュレーション環境と実際のロボットでのロボット操作に関する広範な実験により、提案されたスキームの優位性が実証されました。
ビデオと詳細については、\url{https://explore-pretrain-robot.github.io} をご覧ください。
要約(オリジナル)
Visual pre-training with large-scale real-world data has made great progress in recent years, showing great potential in robot learning with pixel observations. However, the recipes of visual pre-training for robot manipulation tasks are yet to be built. In this paper, we thoroughly investigate the effects of visual pre-training strategies on robot manipulation tasks from three fundamental perspectives: pre-training datasets, model architectures and training methods. Several significant experimental findings are provided that are beneficial for robot learning. Further, we propose a visual pre-training scheme for robot manipulation termed Vi-PRoM, which combines self-supervised learning and supervised learning. Concretely, the former employs contrastive learning to acquire underlying patterns from large-scale unlabeled data, while the latter aims learning visual semantics and temporal dynamics. Extensive experiments on robot manipulations in various simulation environments and the real robot demonstrate the superiority of the proposed scheme. Videos and more details can be found on \url{https://explore-pretrain-robot.github.io}.
arxiv情報
| 著者 | Ya Jing,Xuelin Zhu,Xingbin Liu,Qie Sima,Taozheng Yang,Yunhai Feng,Tao Kong |
| 発行日 | 2023-08-07 14:24:52+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google