要約
我々は、InterACT: 階層的注意トランスフォーマーによる相互依存性を意識したアクション チャンキングを紹介します。これは、双腕関節の状態と視覚入力の間の相互依存性を捕捉するために階層的注意を統合する、両手操作のための新しい模倣学習フレームワークです。
InterACT は、階層アテンション エンコーダーとマルチアーム デコーダーで構成されており、どちらも情報の集約と調整を強化するように設計されています。
エンコーダーはセグメントごとおよびセグメント間のアテンション メカニズムを通じてマルチモーダル入力を処理し、デコーダーは同期ブロックを活用して個々のアクション予測を洗練し、相手の予測をコンテキストとして提供します。
さまざまなシミュレーションおよび現実世界の両手操作タスクに関する私たちの実験では、InterACT が既存の方法を大幅に上回るパフォーマンスを示しています。
詳細なアブレーション研究により、CLS トークン、クロスセグメント エンコーダー、同期ブロックの影響など、私たちの研究の主要なコンポーネントの貢献が検証されます。
要約(オリジナル)
We present InterACT: Inter-dependency aware Action Chunking with Hierarchical Attention Transformers, a novel imitation learning framework for bimanual manipulation that integrates hierarchical attention to capture inter-dependencies between dual-arm joint states and visual inputs. InterACT consists of a Hierarchical Attention Encoder and a Multi-arm Decoder, both designed to enhance information aggregation and coordination. The encoder processes multi-modal inputs through segment-wise and cross-segment attention mechanisms, while the decoder leverages synchronization blocks to refine individual action predictions, providing the counterpart’s prediction as context. Our experiments on a variety of simulated and real-world bimanual manipulation tasks demonstrate that InterACT significantly outperforms existing methods. Detailed ablation studies validate the contributions of key components of our work, including the impact of CLS tokens, cross-segment encoders, and synchronization blocks.
arxiv情報
著者 | Andrew Lee,Ian Chuang,Ling-Yuan Chen,Iman Soltani |
発行日 | 2024-09-12 10:30:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google