Unleashing Large-Scale Video Generative Pre-training for Visual Robot Manipulation

要約

事前トレーニングされた生成モデルは、有用な表現を学習することにより、言語と視覚の領域で顕著な効果を実証しました。
この論文では、視覚的なロボット操作が大規模なビデオ生成事前トレーニングから大きな恩恵を受ける可能性があることを示すことで、この有効性の範囲を拡張します。
マルチタスク言語条件付き視覚ロボット操作用に設計された単純な GPT スタイル モデルである GR-1 を紹介します。
GR-1 は、言語命令、一連の観察画像、および一連のロボット状態を入力として受け取ります。
ロボットの動作と将来のイメージをエンドツーエンドで予測します。
柔軟な設計のおかげで、GR-1 は大規模なビデオ データセットで事前トレーニングした後、ロボット データでシームレスに微調整できます。
私たちは、困難な CALVIN ベンチマークと実際のロボットで広範な実験を実行します。
CALVIN ベンチマークでは、当社の手法は最先端のベースライン手法を上回り、成功率が 88.9% から 94.9% に向上しました。
ゼロショットの未見シーン汎用化の設定では、GR-1 は成功率を 53.3% から 85.4% に向上させます。
実際のロボット実験でも、GR-1 はベースライン手法を上回り、目に見えないシーンやオブジェクトへの一般化において強力な可能性を示します。
我々は、大規模なビデオ生成事前トレーニングで強化された統合 GPT スタイルのトランスフォーマーが、マルチタスクの視覚ロボット操作に対して顕著な一般化を示すという最初の証拠を提供します。
プロジェクトページ: https://GR1-Manipulation.github.io

要約(オリジナル)

Generative pre-trained models have demonstrated remarkable effectiveness in language and vision domains by learning useful representations. In this paper, we extend the scope of this effectiveness by showing that visual robot manipulation can significantly benefit from large-scale video generative pre-training. We introduce GR-1, a straightforward GPT-style model designed for multi-task language-conditioned visual robot manipulation. GR-1 takes as inputs a language instruction, a sequence of observation images, and a sequence of robot states. It predicts robot actions as well as future images in an end-to-end manner. Thanks to a flexible design, GR-1 can be seamlessly finetuned on robot data after pre-trained on a large-scale video dataset. We perform extensive experiments on the challenging CALVIN benchmark and a real robot. On CALVIN benchmark, our method outperforms state-of-the-art baseline methods and improves the success rate from 88.9% to 94.9%. In the setting of zero-shot unseen scene generalization, GR-1 improves the success rate from 53.3% to 85.4%. In real robot experiments, GR-1 also outperforms baseline methods and shows strong potentials in generalization to unseen scenes and objects. We provide inaugural evidence that a unified GPT-style transformer, augmented with large-scale video generative pre-training, exhibits remarkable generalization to multi-task visual robot manipulation. Project page: https://GR1-Manipulation.github.io

arxiv情報

著者 Hongtao Wu,Ya Jing,Chilam Cheang,Guangzeng Chen,Jiafeng Xu,Xinghang Li,Minghuan Liu,Hang Li,Tao Kong
発行日 2023-12-21 05:34:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク