Reasoning Grasping via Multimodal Large Language Model

要約

人間中心の環境内で動作するロボットシステムは大幅に進歩しているにもかかわらず、既存のモデルは依然として、特定のオブジェクトを識別して操作するために明示的な人間のコマンドに大きく依存しています。
このため、暗黙的な人間の意図を理解し、それに基づいて行動することが重要な環境では、その有効性が制限されます。
この研究では、ロボットが間接的な口頭指示や意図に基づいて把握ポーズを生成する必要がある推論把握という新しいタスクを導入します。
これを達成するために、マルチモーダル大規模言語モデル (LLM) とビジョンベースのロボット把握フレームワークを統合する、エンドツーエンドの推論把握モデルを提案します。
さらに、オブジェクトレベルおよびパーツレベルの把握のための暗黙的な命令を組み込んだ、GraspNet-10億から生成された最初の推論把握ベンチマークデータセットを紹介します。このデータセットは間もなく一般公開される予定です。
私たちの結果は、CLIP または LLaVA を把握検出モデルと直接統合すると、困難な推論把握タスクではパフォーマンスが低いのに対し、提案したモデルは推論把握ベンチマークと現実世界の実験の両方で大幅に向上したパフォーマンスを示していることを示しています。

要約(オリジナル)

Despite significant progress in robotic systems for operation within human-centric environments, existing models still heavily rely on explicit human commands to identify and manipulate specific objects. This limits their effectiveness in environments where understanding and acting on implicit human intentions are crucial. In this study, we introduce a novel task: reasoning grasping, where robots need to generate grasp poses based on indirect verbal instructions or intentions. To accomplish this, we propose an end-to-end reasoning grasping model that integrates a multi-modal Large Language Model (LLM) with a vision-based robotic grasping framework. In addition, we present the first reasoning grasping benchmark dataset generated from the GraspNet-1 billion, incorporating implicit instructions for object-level and part-level grasping, and this dataset will soon be available for public access. Our results show that directly integrating CLIP or LLaVA with the grasp detection model performs poorly on the challenging reasoning grasping tasks, while our proposed model demonstrates significantly enhanced performance both in the reasoning grasping benchmark and real-world experiments.

arxiv情報

著者 Shiyu Jin,Jinxuan Xu,Yutian Lei,Liangjun Zhang
発行日 2024-02-09 21:48:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク