CACTI: A Framework for Scalable Multi-Task Multi-Scene Visual Imitation Learning


大規模なトレーニングは、コンピューター ビジョンや自然言語処理など、AI のさまざまなサブフィールドで大きな進歩を遂げました。
幅広いスキルを実行し、新しいシナリオに適応できるロボットを開発するには、物理​​的なロボット システムで膨大かつ多様な量のデータを効率的に収集する方法と、そのようなデータセットを使用して大容量のポリシーをトレーニングする機能が必要です。
私たちが提案するフレームワーク CACTI は、ロボット学習のスケーラビリティを可能にするために、データ収集、データ拡張、視覚的表現学習、および模倣ポリシーのトレーニングを個別に処理する 4 つの段階で構成されています。
実際のロボットのセットアップでは、CACTI はキッチン オブジェクトを含む 10 の操作タスクを実行できる単一のポリシーの効率的なトレーニングを可能にし、ディストラクターのさまざまなレイアウトに対して堅牢です。
シミュレートされたキッチン環境で、CACTI は単一のポリシーをトレーニングして、個々のタスクごとに 100 のレイアウト バリエーションにわたって 18 のセマンティック タスクを実行します。
今後の研究を容易にするために、シミュレーション タスク ベンチマークと拡張データセットを実際の環境とシミュレーション環境の両方でリリースします。


Large-scale training have propelled significant progress in various sub-fields of AI such as computer vision and natural language processing. However, building robot learning systems at a comparable scale remains challenging. To develop robots that can perform a wide range of skills and adapt to new scenarios, efficient methods for collecting vast and diverse amounts of data on physical robot systems are required, as well as the capability to train high-capacity policies using such datasets. In this work, we propose a framework for scaling robot learning, with specific focus on multi-task and multi-scene manipulation in kitchen environments, both in simulation and in the real world. Our proposed framework, CACTI, comprises four stages that separately handle: data collection, data augmentation, visual representation learning, and imitation policy training, to enable scalability in robot learning . We make use of state-of-the-art generative models as part of the data augmentation stage, and use pre-trained out-of-domain visual representations to improve training efficiency. Experimental results demonstrate the effectiveness of our approach. On a real robot setup, CACTI enables efficient training of a single policy that can perform 10 manipulation tasks involving kitchen objects, and is robust to varying layouts of distractors. In a simulated kitchen environment, CACTI trains a single policy to perform 18 semantic tasks across 100 layout variations for each individual task. We will release the simulation task benchmark and augmented datasets in both real and simulated environments to facilitate future research.


著者 Zhao Mandi,Homanga Bharadhwaj,Vincent Moens,Shuran Song,Aravind Rajeswaran,Vikash Kumar
発行日 2023-02-16 16:23:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク