Autoregressive Action Sequence Learning for Robotic Manipulation

要約

自己回帰モデルは自然言語処理において顕著な成功を収めている。本研究では、ロボット操作タスクのための、シンプルかつ効果的な自己回帰アーキテクチャを設計する。我々はチャンキング因果変換器(Chunking Causal Transformer: CCT)を提案し、因果変換器の次の単一トークン予測を拡張し、単一パスで複数トークンの予測をサポートする。さらに、CCTを教師強制により効率的に学習させる、新しい注意インターリーブ戦略を設計する。CCTに基づいて、行動シーケンスを自己回帰的に生成するように学習する自己回帰ポリシー(Autoregressive Policy: ARP)モデルを提案する。行動シーケンスの学習により、ロボットタスクの根底にある因果関係をより有効に活用できることを見出す。我々は、Push-T、ALOHA、RLBenchを含む多様なロボット操作環境においてARPを評価し、ARPが全てのテスト環境において、計算とパラメータサイズにおいてより効率的でありながら、最先端の手法を凌駕することを示す。ビデオデモ、ソースコード、ARPのモデルはhttp://github.com/mlzxy/arp。

要約(オリジナル)

Autoregressive models have demonstrated remarkable success in natural language processing. In this work, we design a simple yet effective autoregressive architecture for robotic manipulation tasks. We propose the Chunking Causal Transformer (CCT), which extends the next-single-token prediction of causal transformers to support multi-token prediction in a single pass. Further, we design a novel attention interleaving strategy that allows CCT to be trained efficiently with teacher-forcing. Based on CCT, we propose the Autoregressive Policy (ARP) model, which learns to generate action sequences autoregressively. We find that action sequence learning enables better leverage of the underlying causal relationships in robotic tasks. We evaluate ARP across diverse robotic manipulation environments, including Push-T, ALOHA, and RLBench, and show that it outperforms the state-of-the-art methods in all tested environments, while being more efficient in computation and parameter sizes. Video demonstrations, our source code, and the models of ARP can be found at http://github.com/mlzxy/arp.

arxiv情報

著者 Xinyu Zhang,Yuhan Liu,Haonan Chang,Liam Schramm,Abdeslam Boularias
発行日 2024-10-04 04:07:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク