Robot Learning with Sensorimotor Pre-training

要約

ロボット工学のための自己監視型感覚運動事前トレーニングアプローチを紹介します。
RPT と呼ばれる私たちのモデルは、一連の感覚運動トークンで動作するトランスフォーマーです。
一連のカメラ画像、固有受容ロボットの状態、アクションが与えられると、そのシーケンスをトークンにエンコードし、サブセットをマスクアウトして、残りから欠落しているコンテンツを予測するモデルをトレーニングします。
私たちは、ロボットがマスクされたコンテンツを予測できれば、ロボットが行動できるようにする物理世界の優れたモデルを取得していると仮定します。
RPT は、潜在的な視覚表現を操作するように設計されているため、予測が扱いやすく、より大きなモデルへのスケーリングが可能になり、実際のロボットでの高速推論が可能になります。
私たちのアプローチを評価するために、動作計画と把握アルゴリズムを組み合わせて、9 か月にわたって 20,000 の現実世界の軌道のデータセットを収集しました。
私たちは、感覚運動の事前トレーニングが一貫してゼロからのトレーニングよりも優れたパフォーマンスを示し、有利なスケーリング特性を持ち、さまざまなタスク、環境、ロボット間での移行を可能にすることを発見しました。

要約(オリジナル)

We present a self-supervised sensorimotor pre-training approach for robotics. Our model, called RPT, is a Transformer that operates on sequences of sensorimotor tokens. Given a sequence of camera images, proprioceptive robot states, and actions, we encode the sequence into tokens, mask out a subset, and train a model to predict the missing content from the rest. We hypothesize that if a robot can predict the masked-out content it will have acquired a good model of the physical world that can enable it to act. RPT is designed to operate on latent visual representations which makes prediction tractable, enables scaling to larger models, and allows fast inference on a real robot. To evaluate our approach, we collected a dataset of 20,000 real-world trajectories over 9 months using a combination of motion planning and grasping algorithms. We find that sensorimotor pre-training consistently outperforms training from scratch, has favorable scaling properties, and enables transfer across different tasks, environments, and robots.

arxiv情報

著者 Ilija Radosavovic,Baifeng Shi,Letian Fu,Ken Goldberg,Trevor Darrell,Jitendra Malik
発行日 2023-12-14 16:56:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO パーマリンク