Imitating Task and Motion Planning with Visuomotor Transformers

要約

模倣学習はロボットの操作ポリシーをトレーニングするための強力なツールであり、手動のプログラミングや試行錯誤をせずに専門家のデモンストレーションから学ぶことができます。
ただし、人間による監視などの一般的なデータ収集方法は、時間と労力がかかるため、拡張性が低くなります。
対照的に、タスク アンド モーション プランニング (TAMP) は、さまざまなデモンストレーションの大規模なデータセットを自律的に生成できます。
この研究では、TAMP スーパーバイザによって生成された大規模なデータセットと、それらに適合する柔軟な Transformer モデルの組み合わせが、ロボット操作の強力なパラダイムであることを示します。
そのために、TAMP エージェントを模倣することによって大規模な視覚運動トランスフォーマー ポリシーを訓練する、OPTIMUS と呼ばれる新しい模倣学習システムを紹介します。
OPTIMUS は、模倣学習用に特別に厳選され、パフォーマンスの高いトランスフォーマー ベースのポリシーをトレーニングするために使用できる TAMP データを生成するためのパイプラインを導入します。
この論文では、TAMP を模倣するために必要な設計上の決定に関する徹底的な研究を紹介し、OPTIMUS が、長い水平方向のピック アンド プレース タスクに至るまで、70 を超える異なるオブジェクトを使用した、さまざまな困難な視覚ベースの操作タスクを解決できることを実証します。
、棚や多関節オブジェクトの操作まで、70 ~ 80% の成功率を達成します。
ビデオの結果とコードは https://mihdalal.github.io/optimus/ にあります。

要約(オリジナル)

Imitation learning is a powerful tool for training robot manipulation policies, allowing them to learn from expert demonstrations without manual programming or trial-and-error. However, common methods of data collection, such as human supervision, scale poorly, as they are time-consuming and labor-intensive. In contrast, Task and Motion Planning (TAMP) can autonomously generate large-scale datasets of diverse demonstrations. In this work, we show that the combination of large-scale datasets generated by TAMP supervisors and flexible Transformer models to fit them is a powerful paradigm for robot manipulation. To that end, we present a novel imitation learning system called OPTIMUS that trains large-scale visuomotor Transformer policies by imitating a TAMP agent. OPTIMUS introduces a pipeline for generating TAMP data that is specifically curated for imitation learning and can be used to train performant transformer-based policies. In this paper, we present a thorough study of the design decisions required to imitate TAMP and demonstrate that OPTIMUS can solve a wide variety of challenging vision-based manipulation tasks with over 70 different objects, ranging from long-horizon pick-and-place tasks, to shelf and articulated object manipulation, achieving 70 to 80% success rates. Video results and code at https://mihdalal.github.io/optimus/

arxiv情報

著者 Murtaza Dalal,Ajay Mandlekar,Caelan Garrett,Ankur Handa,Ruslan Salakhutdinov,Dieter Fox
発行日 2023-10-17 16:34:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO パーマリンク