MoManipVLA: Transferring Vision-language-action Models for General Mobile Manipulation

要約

モバイル操作は、日常生活における多様なタスクと環境を持つ人間を支援するためのロボット工学の基本的な課題です。
ただし、大規模なトレーニングが不足しているため、従来のモバイル操作アプローチは、さまざまなタスクや環境にわたって一般化するのに苦労しています。
対照的に、ビジョン言語アクション(VLA)モデルの最近の進歩は印象的な一般化能力を示していますが、これらの基礎モデルは固定ベース操作タスクのために開発されています。
したがって、MoManipVLAという名前の効率的なポリシー適応フレームワークを提案して、モバイル操作に高訓練を受けたVLAモデルをモバイル操作に転送し、モバイル操作ポリシーでタスクや環境全体で高い一般化能力を達成できるようにします。
具体的には、事前に訓練されたVLAモデルを利用して、一般化能力が高いエンドエフェクターのウェイポイントを生成します。
軌跡の物理的な実現可能性を最大化することを目的としたモバイルベースとロボットアームのモーション計画目標を設計します。
最後に、軌道生成のための効率的なバイレベルの客観的最適化フレームワークを提示します。上部レベルの最適化により、マニピュレーターポリシー空間を強化するためのベース移動のウェイポイントを予測し、低レベルの最適化により、操作タスクを完了するための最適なエンド効果軌道を選択します。
このようにして、Momanipvlaはロボットベースの位置をゼロショット方法で調整できるため、固定ベースのVLAモデルから予測可能になります。
OVMMと現実の世界に関する広範な実験結果は、Momanipvlaが最先端のモバイル操作よりも4.2%高い成功率を達成しており、事前に訓練されたVLAモデルの強力な一般化能力のため、実世界の展開に50のトレーニングコストを必要とすることを示しています。

要約(オリジナル)

Mobile manipulation is the fundamental challenge for robotics to assist humans with diverse tasks and environments in everyday life. However, conventional mobile manipulation approaches often struggle to generalize across different tasks and environments because of the lack of large-scale training. In contrast, recent advances in vision-language-action (VLA) models have shown impressive generalization capabilities, but these foundation models are developed for fixed-base manipulation tasks. Therefore, we propose an efficient policy adaptation framework named MoManipVLA to transfer pre-trained VLA models of fix-base manipulation to mobile manipulation, so that high generalization ability across tasks and environments can be achieved in mobile manipulation policy. Specifically, we utilize pre-trained VLA models to generate waypoints of the end-effector with high generalization ability. We design motion planning objectives for the mobile base and the robot arm, which aim at maximizing the physical feasibility of the trajectory. Finally, we present an efficient bi-level objective optimization framework for trajectory generation, where the upper-level optimization predicts waypoints for base movement to enhance the manipulator policy space, and the lower-level optimization selects the optimal end-effector trajectory to complete the manipulation task. In this way, MoManipVLA can adjust the position of the robot base in a zero-shot manner, thus making the waypoints predicted from the fixed-base VLA models feasible. Extensive experimental results on OVMM and the real world demonstrate that MoManipVLA achieves a 4.2% higher success rate than the state-of-the-art mobile manipulation, and only requires 50 training cost for real world deployment due to the strong generalization ability in the pre-trained VLA models.

arxiv情報

著者 Zhenyu Wu,Yuheng Zhou,Xiuwei Xu,Ziwei Wang,Haibin Yan
発行日 2025-03-17 17:59:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク