Actra: Optimized Transformer Architecture for Vision-Language-Action Models in Robot Learning

要約

視覚-言語-行動モデルは、ロボットの学習における軌道をモデル化する能力で大きな注目を集めている。しかし、既存のモデルのほとんどは、バニラ因果的注意を持つトランスフォーマモデルに依存しており、セグメント化されたマルチモーダルシーケンスの処理には最適でないことが分かっている。さらに、自己回帰的な生成アプローチは、多次元の行動を生成するには不十分である。本論文では、ロボットの模倣学習において、分割された視覚-言語-行動の軌跡を効果的に符号化・復号化するために設計された、軌跡注意と学習可能な行動クエリを特徴とする最適化されたTransformerアーキテクチャであるActraを紹介する。さらに、異なるモダリティを明示的に整合させるマルチモーダル対照学習目的を考案し、主要な行動クローニング目的を補完する。様々な環境下で実施された広範な実験を通じて、Actraは、汎化性、器用さ、および精度の点で、最先端のモデルと比較して大幅な性能向上を示した。

要約(オリジナル)

Vision-language-action models have gained significant attention for their ability to model trajectories in robot learning. However, most existing models rely on Transformer models with vanilla causal attention, which we find suboptimal for processing segmented multi-modal sequences. Additionally, the autoregressive generation approach falls short in generating multi-dimensional actions. In this paper, we introduce Actra, an optimized Transformer architecture featuring trajectory attention and learnable action queries, designed for effective encoding and decoding of segmented vision-language-action trajectories in robot imitation learning. Furthermore, we devise a multi-modal contrastive learning objective to explicitly align different modalities, complementing the primary behavior cloning objective. Through extensive experiments conducted across various environments, Actra exhibits substantial performance improvement when compared to state-of-the-art models in terms of generalizability, dexterity, and precision.

arxiv情報

著者 Yueen Ma,Dafeng Chi,Shiguang Wu,Yuecheng Liu,Yuzheng Zhuang,Jianye Hao,Irwin King
発行日 2024-08-02 09:55:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO パーマリンク