RoboUniView: Visual-Language Model with Unified View Representation for Robotic Manipulaiton

要約

ロボット操作に視覚言語モデル (VLM) を利用することは、新しいパラダイムを表しており、新しいオブジェクトや命令に一般化するモデルの能力を強化することを目的としています。
ただし、カメラの仕様や取り付け位置が異なるため、既存の方法ではロボット プラットフォームが異なるとパフォーマンスに大きな差が生じます。
この課題に対処するために、この論文では、視覚特徴抽出をアクション学習から分離する革新的なアプローチである RoboUniView を提案します。
まず、すぐにアクセスできるデータで事前トレーニングすることによって、マルチパースペクティブ ビューから統一されたビュー表現を学習し、次に、この統一されたビュー表現からロボット操作を制御するためのアクションを導き出します。
この統一されたビュー表現は、物理世界をより正確に反映しており、ロボット プラットフォームのカメラ パラメーターによって制約されません。
この方法論のおかげで、要求の厳しい CALVIN ベンチマークで最先端のパフォーマンスを達成し、$D \to D$ 設定での成功率が 88.7% から 96.2% に向上し、$ABC \to D$ 設定でも成功率が向上しました。
82.4%から94.2%に設定します。
さらに、私たちのモデルは優れた適応性と柔軟性を示します。目に見えないカメラ パラメーターの下でも高いパフォーマンスを維持し、さまざまなカメラ パラメーターを持つ複数のデータセットを利用でき、データセット全体での共同クロスタスク学習が可能です。
再実装用のコードが提供されています。
https://github.com/liufanfanlff/RoboUniview

要約(オリジナル)

Utilizing Vision-Language Models (VLMs) for robotic manipulation represents a novel paradigm, aiming to enhance the model’s ability to generalize to new objects and instructions. However, due to variations in camera specifications and mounting positions, existing methods exhibit significant performance disparities across different robotic platforms. To address this challenge, we propose RoboUniView in this paper, an innovative approach that decouples visual feature extraction from action learning. We first learn a unified view representation from multi-perspective views by pre-training on readily accessible data, and then derive actions from this unified view representation to control robotic manipulation. This unified view representation more accurately mirrors the physical world and is not constrained by the robotic platform’s camera parameters. Thanks to this methodology, we achieve state-of-the-art performance on the demanding CALVIN benchmark, enhancing the success rate in the $D \to D$ setting from 88.7% to 96.2%, and in the $ABC \to D$ setting from 82.4% to 94.2%. Moreover, our model exhibits outstanding adaptability and flexibility: it maintains high performance under unseen camera parameters, can utilize multiple datasets with varying camera parameters, and is capable of joint cross-task learning across datasets. Code is provided for re-implementation. https://github.com/liufanfanlff/RoboUniview

arxiv情報

著者 Fanfan Liu,Feng Yan,Liming Zheng,Chengjian Feng,Yiyang Huang,Lin Ma
発行日 2024-06-27 08:13:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.RO パーマリンク