Autoregressive Action Sequence Learning for Robotic Manipulation

要約

多様なロボットやタスク構成にわたって適切に機能するユニバーサル ポリシー アーキテクチャを設計することは、依然として重要な課題です。
この研究では、ロボットの動作を連続データとして表現し、自己回帰シーケンス モデリングを通じて動作を生成することで、この問題に対処します。
既存の自己回帰アーキテクチャは、言語モデリングの単語トークンとしてエンドエフェクター ウェイポイントを順番に生成しますが、これは低頻度の制御タスクに限定されています。
言語とは異なり、ロボットの動作は異種混合であり、多くの場合、関節の位置、2D ピクセル座標、エンドエフェクターのポーズなどの連続値が含まれており、言語ベースのモデリングには容易に適していません。
この洞察に基づいて、私たちは直接的な機能強化を導入します。つまり、因果トランスフォーマーの単一トークン予測を拡張し、チャンキング因果トランスフォーマー (CCT) を通じて単一ステップで可変数のトークンの予測をサポートします。
この機能強化により、さまざまな制御周波数の多様なタスクにわたって堅牢なパフォーマンスが可能になり、自己回帰ステップが少なくなることによって効率が向上し、さまざまなタイプのアクションを混合し、アクション タイプごとに異なるチャンク サイズを使用することによって、ハイブリッド アクション シーケンス設計が可能になります。
CCT に基づいて、ハイブリッド アクション シーケンスを生成することで操作タスクを解決する自己回帰ポリシー (ARP) アーキテクチャを提案します。
私たちは、Push-T、ALOHA、RLBench などのさまざまなロボット操作環境全体で ARP を評価し、ARP がユニバーサル アーキテクチャとして、テストされたすべてのベンチマークで環境固有の最先端のパフォーマンスを上回り、より効率的であることを示します。
計算とパラメータのサイズにおいて。
実際のロボットのデモ、ARP のすべてのソース コード、事前トレーニング済みモデルのビデオは、http://github.com/mlzxy/arp でご覧いただけます。

要約(オリジナル)

Designing a universal policy architecture that performs well across diverse robots and task configurations remains a key challenge. In this work, we address this by representing robot actions as sequential data and generating actions through autoregressive sequence modeling. Existing autoregressive architectures generate end-effector waypoints sequentially as word tokens in language modeling, which are limited to low-frequency control tasks. Unlike language, robot actions are heterogeneous and often include continuous values — such as joint positions, 2D pixel coordinates, and end-effector poses — which are not easily suited for language-based modeling. Based on this insight, we introduce a straightforward enhancement: we extend causal transformers’ single-token prediction to support predicting a variable number of tokens in a single step through our Chunking Causal Transformer (CCT). This enhancement enables robust performance across diverse tasks of various control frequencies, greater efficiency by having fewer autoregression steps, and lead to a hybrid action sequence design by mixing different types of actions and using a different chunk size for each action type. Based on CCT, we propose the Autoregressive Policy (ARP) architecture, which solves manipulation tasks by generating hybrid action sequences. We evaluate ARP across diverse robotic manipulation environments, including Push-T, ALOHA, and RLBench, and show that ARP, as a universal architecture, outperforms the environment-specific state-of-the-art in all tested benchmarks, while being more efficient in computation and parameter sizes. Videos of our real robot demonstrations, all source code and the pretrained models of ARP can be found at http://github.com/mlzxy/arp.

arxiv情報

著者 Xinyu Zhang,Yuhan Liu,Haonan Chang,Liam Schramm,Abdeslam Boularias
発行日 2024-11-18 02:06:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク