要約
人間の指示に基づいて散らかったビンからロボット把握を実行することは、自由形式のニュアンスとオブジェクト間の空間的関係の両方を理解する必要があるため、挑戦的な作業です。
GPT-4OなどのWebスケールデータでトレーニングされたビジョン言語モデル(VLM)は、テキストと画像の両方で顕著な推論機能を実証しています。
しかし、それらはゼロショット設定でこのタスクに本当に使用できますか?
そして、彼らの限界は何ですか?
この論文では、フリーフォームの言語ベースのロボットグラッピングタスクを介してこれらの研究の質問を調査し、フリーグラスの新しい方法を提案し、事前に訓練されたVLMの世界知識を活用して、人間の指示とオブジェクトの空間的配置について推論します。
私たちの方法は、すべてのオブジェクトをキーポイントとして検出し、これらのキーポイントを使用して画像にマークを注釈を付け、GPT-4Oのゼロショットの空間推論を促進することを目指しています。
これにより、私たちの方法は、要求されたオブジェクトが直接把握できるかどうか、または他のオブジェクトを最初に把握して削除する必要があるかどうかを判断できます。
既存のデータセットはこのタスク用に特別に設計されていないため、MetAgraspNetv2データセットをヒトが注目した命令とグラウンドトゥルースグレーシングシーケンスを拡張することにより、合成データセットのフリーグラスダタを導入します。
グリッパー装備のロボットアームを使用して、FreeGraspDataと実世界の両方の検証を使用して広範な分析を実施し、把握の推論と実行の最先端のパフォーマンスを示しています。
プロジェクトWebサイト:https://tev-fbk.github.io/freegrasp/。
要約(オリジナル)
Performing robotic grasping from a cluttered bin based on human instructions is a challenging task, as it requires understanding both the nuances of free-form language and the spatial relationships between objects. Vision-Language Models (VLMs) trained on web-scale data, such as GPT-4o, have demonstrated remarkable reasoning capabilities across both text and images. But can they truly be used for this task in a zero-shot setting? And what are their limitations? In this paper, we explore these research questions via the free-form language-based robotic grasping task, and propose a novel method, FreeGrasp, leveraging the pre-trained VLMs’ world knowledge to reason about human instructions and object spatial arrangements. Our method detects all objects as keypoints and uses these keypoints to annotate marks on images, aiming to facilitate GPT-4o’s zero-shot spatial reasoning. This allows our method to determine whether a requested object is directly graspable or if other objects must be grasped and removed first. Since no existing dataset is specifically designed for this task, we introduce a synthetic dataset FreeGraspData by extending the MetaGraspNetV2 dataset with human-annotated instructions and ground-truth grasping sequences. We conduct extensive analyses with both FreeGraspData and real-world validation with a gripper-equipped robotic arm, demonstrating state-of-the-art performance in grasp reasoning and execution. Project website: https://tev-fbk.github.io/FreeGrasp/.
arxiv情報
著者 | Runyu Jiao,Alice Fasoli,Francesco Giuliari,Matteo Bortolon,Sergio Povoli,Guofeng Mei,Yiming Wang,Fabio Poiesi |
発行日 | 2025-03-17 11:41:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google