GPA-RAM: Grasp-Pretraining Augmented Robotic Attention Mamba for Spatial Task Learning

要約

ほとんどの既存のロボット操作方法は、複雑な深いネットワークアーキテクチャを通じて知覚を強化することにより、タスク学習を優先します。
しかし、彼らはリアルタイムの衝突のない計画で課題に直面しています。
したがって、ロボットの注意Mamba(RAM)は、洗練された計画のために設計されています。
具体的には、MAMBAと並列シングルビューの注意を統合することにより、RAMはマルチビュービジョンとタスク関連の言語機能を調整し、線形複雑さと堅牢なリアルタイムパフォーマンスを備えた効率的な微細なタスク計画を確保します。
それにもかかわらず、それは高精度の把握と操作をさらに改善する可能性があります。
したがって、把握抑制増強(GPA)が考案され、把握ポーズ特徴抽出器は、タスク全体のデモンストから直接継承されたオブジェクトをつかむポーズを前提としています。
その後、抽出された把握機能は、RAMから注意ベースの事前訓練を受けた位置融合を介して空間的に整列した計画機能と融合し、グローバルな計画に関する過度の強盗によって隠された高解像度の把握キューを維持します。
要約すると、把握したロボットの注意マンバ(GPA-RAM)を把握することを提案し、スキル学習を計画するための空間タスク学習をRAMに分割し、スキル学習を把握するためのGPAを除算します。
GPA-RAMは、シミュレーションと現実世界で異なるカメラ構成を備えた3つのロボットシステムで優れたパフォーマンスを示しています。
以前の最先端の方法と比較して、RLBenchマルチタスクベンチマークで8.2%(79.3%から87.5%)、アロハバイマニュアルマニピュレーションタスクの12%(16%から56%)、12%(86%から98%)を改善します。
さらに、実験結果は、RAMとGPAの両方がタスク学習を強化することを示しており、GPAは、前処理された把握ポーズ特徴抽出器の異なるアーキテクチャに堅牢であることを証明しています。
ウェブサイトはhttps://logssim.github.io/gpa\_ram\_website/です。

要約(オリジナル)

Most existing robot manipulation methods prioritize task learning by enhancing perception through complex deep network architectures. However, they face challenges in real-time collision-free planning. Hence, Robotic Attention Mamba (RAM) is designed for refined planning. Specifically, by integrating Mamba and parallel single-view attention, RAM aligns multi-view vision and task-related language features, ensuring efficient fine-grained task planning with linear complexity and robust real-time performance. Nevertheless, it has the potential for further improvement in high-precision grasping and manipulation. Thus, Grasp-Pretraining Augmentation (GPA) is devised, with a grasp pose feature extractor pretrained utilizing object grasp poses directly inherited from whole-task demonstrations. Subsequently, the extracted grasp features are fused with the spatially aligned planning features from RAM through attention-based Pre-trained Location Fusion, preserving high-resolution grasping cues overshadowed by an overemphasis on global planning. To summarize, we propose Grasp-Pretraining Augmented Robotic Attention Mamba (GPA-RAM), dividing spatial task learning into RAM for planning skill learning and GPA for grasping skill learning. GPA-RAM demonstrates superior performance across three robot systems with distinct camera configurations in simulation and the real world. Compared with previous state-of-the-art methods, it improves the absolute success rate by 8.2% (from 79.3% to 87.5%) on the RLBench multi-task benchmark and 40\% (from 16% to 56%), 12% (from 86% to 98%) on the ALOHA bimanual manipulation tasks, while delivering notably faster inference. Furthermore, experimental results demonstrate that both RAM and GPA enhance task learning, with GPA proving robust to different architectures of pretrained grasp pose feature extractors. The website is: https://logssim.github.io/GPA\_RAM\_website/.

arxiv情報

著者 Juyi Sheng,Yangjun Liu,Sheng Xu,Zhixin Yang,Mengyuan Liu
発行日 2025-04-28 11:20:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク