RoboMamba: Multimodal State Space Model for Efficient Robot Reasoning and Manipulation

要約

ロボット操作の基本的な目的は、モデルが視覚的なシーンを理解し、アクションを実行できるようにすることです。
既存のロボットのマルチモーダル大規模言語モデル (MLLM) はさまざまな基本タスクを処理できますが、依然として 2 つの領域で課題に直面しています。1) 複雑なタスクに取り組むための推論能力が不十分であること、2) MLLM の微調整と推論にかかる計算コストが高いことです。
Mamba として知られる最近提案された状態空間モデル (SSM) は、線形推論の複雑さを伴う非自明なシーケンス モデリングにおいて有望な機能を実証しています。
これに触発されて、効率的な微調整と推論を維持しながら、Mamba モデルを活用してロボット推論とアクション機能の両方を提供するエンドツーエンドのロボット MLLM である RoboMamba を紹介します。
具体的には、まずビジョン エンコーダーを Mamba と統合し、共同トレーニングを通じてビジュアル データを言語埋め込みと調整し、モデルに視覚的常識とロボット関連の推論を強化します。
RoboMamba にアクション ポーズ予測機能をさらに装備するために、シンプルなポリシー ヘッドを使用して効率的な微調整戦略を検討します。
RoboMamba が十分な推論能力を備えれば、最小限の微調整パラメーター (モデルの 0.1\%) と時間 (20 分) で操作スキルを習得できることがわかりました。
実験では、RoboMamba は一般的およびロボット評価ベンチマークにおいて優れた推論能力を実証します。
一方、私たちのモデルは、シミュレーションと現実世界の実験の両方で印象的な姿勢予測結果を示し、既存のロボット MLLM よりも 7 倍速い推論速度を達成しました。
私たちのプロジェクトのウェブページ: https://sites.google.com/view/robomamba-web

要約(オリジナル)

A fundamental objective in robot manipulation is to enable models to comprehend visual scenes and execute actions. Although existing robot Multimodal Large Language Models (MLLMs) can handle a range of basic tasks, they still face challenges in two areas: 1) inadequate reasoning ability to tackle complex tasks, and 2) high computational costs for MLLM fine-tuning and inference. The recently proposed state space model (SSM) known as Mamba demonstrates promising capabilities in non-trivial sequence modeling with linear inference complexity. Inspired by this, we introduce RoboMamba, an end-to-end robotic MLLM that leverages the Mamba model to deliver both robotic reasoning and action capabilities, while maintaining efficient fine-tuning and inference. Specifically, we first integrate the vision encoder with Mamba, aligning visual data with language embedding through co-training, empowering our model with visual common sense and robot-related reasoning. To further equip RoboMamba with action pose prediction abilities, we explore an efficient fine-tuning strategy with a simple policy head. We find that once RoboMamba possesses sufficient reasoning capability, it can acquire manipulation skills with minimal fine-tuning parameters (0.1\% of the model) and time (20 minutes). In experiments, RoboMamba demonstrates outstanding reasoning capabilities on general and robotic evaluation benchmarks. Meanwhile, our model showcases impressive pose prediction results in both simulation and real-world experiments, achieving inference speeds 7 times faster than existing robot MLLMs. Our project web page: https://sites.google.com/view/robomamba-web

arxiv情報

著者 Jiaming Liu,Mengzhen Liu,Zhenyu Wang,Lily Lee,Kaichen Zhou,Pengju An,Senqiao Yang,Renrui Zhang,Yandong Guo,Shanghang Zhang
発行日 2024-06-06 17:59:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク