PACT: Perception-Action Causal Transformer for Autoregressive Robotics Pre-Training

要約

ロボット工学は長い間、複雑なシステム アーキテクチャに悩まされてきた分野であり、そのモジュールと接続は、従来型であろうと学習ベースであろうと、かなりの人間の専門知識と事前の知識を必要とします。
大規模な事前トレーニング済み言語モデルに着想を得たこの作業は、特定のロボットで複数のタスクの開始点として機能できる汎用表現を事前トレーニングするためのパラダイムを紹介します。
Perception-Action Causal Transformer (PACT) を紹介します。これは生成トランスフォーマー ベースのアーキテクチャであり、自己監視型の方法でロボット データから直接表現を構築することを目的としています。
時間の経過に伴う状態とアクションの自己回帰予測により、モデルは特定のロボットのダイナミクスと動作を暗黙的にエンコードします。
私たちの実験的評価は、モバイル エージェントの領域に焦点を当てており、このロボット固有の表現が、安全なナビゲーション、ローカリゼーション、マッピングなどの明確なタスクを達成するための単一の出発点として機能できることを示しています。
LiDAR センサーを知覚入力として使用する車輪付きロボット (MuSHR) と、一人称 RGB 画像を使用するシミュレートされたエージェント (Habitat) の 2 つのフォーム ファクターを評価します。
大規模な事前トレーニング済みモデルの上に小さなタスク固有のネットワークを微調整すると、すべてのタスクに対して単一のモデルをゼロから同時にトレーニングする場合と比較してパフォーマンスが大幅に向上し、タスクごとに個別の大規模モデルを個別にトレーニングする場合と同等のパフォーマンスが得られることを示します。
タスク全体で共通の高品質の表現を共有することにより、全体的なモデル容量を削減し、そのようなシステムのリアルタイム展開を高速化できます。

要約(オリジナル)

Robotics has long been a field riddled with complex systems architectures whose modules and connections, whether traditional or learning-based, require significant human expertise and prior knowledge. Inspired by large pre-trained language models, this work introduces a paradigm for pre-training a general purpose representation that can serve as a starting point for multiple tasks on a given robot. We present the Perception-Action Causal Transformer (PACT), a generative transformer-based architecture that aims to build representations directly from robot data in a self-supervised fashion. Through autoregressive prediction of states and actions over time, our model implicitly encodes dynamics and behaviors for a particular robot. Our experimental evaluation focuses on the domain of mobile agents, where we show that this robot-specific representation can function as a single starting point to achieve distinct tasks such as safe navigation, localization and mapping. We evaluate two form factors: a wheeled robot that uses a LiDAR sensor as perception input (MuSHR), and a simulated agent that uses first-person RGB images (Habitat). We show that finetuning small task-specific networks on top of the larger pretrained model results in significantly better performance compared to training a single model from scratch for all tasks simultaneously, and comparable performance to training a separate large model for each task independently. By sharing a common good-quality representation across tasks we can lower overall model capacity and speed up the real-time deployment of such systems.

arxiv情報

著者 Rogerio Bonatti,Sai Vemprala,Shuang Ma,Felipe Frujeri,Shuhang Chen,Ashish Kapoor
発行日 2022-09-22 16:20:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO パーマリンク