Learning 6-DoF Fine-grained Grasp Detection Based on Part Affordance Grounding

要約

ロボットによる把握は、ロボットが環境と対話するための基本的な能力です。
現在の手法は、物体レベルで安定した信頼性の高い把握ポーズを取得する方法に焦点を当てていますが、きめの細かい把握やロボットのアフォーダンスに関連する部分(形状)ごとの把握についてはほとんど研究されていません。
パーツはオブジェクトを構成する原子要素とみなすことができ、オブジェクトには豊富な意味論的な知識とアフォーダンスとの強い相関関係が含まれています。
ただし、大規模な部品ごとの 3D ロボット データセットが不足しているため、部品表現の学習と下流のアプリケーションの開発が制限されます。
この論文では、3D パーツレベルのアフォーダンスと把握能力の学習を促進するために、新しい大規模な言語ガイド付き SHAPE 把握データ (LangSHAPE と呼ばれる) を提案します。
ロボット認知の観点から、我々は、新しい 3D パーツ言語グラウンディング モデルとパーツ認識把握姿勢検出モデルを含む 2 段階のきめの細かいロボット把握フレームワーク (LangPartGPD と呼ばれる) を設計します。
大規模言語モデル (LLM) は、テキストによる説明とともに部品レベルの 6-DoF 把握ポーズを生成するようにロボットを誘導できます。
私たちの手法は、人間とロボットのコラボレーションの利点と、明示的な言語を記号的中間体として使用する LLM の計画能力を組み合わせたものです。
提案した方法の有効性を評価するために、さまざまな程度のテキストの複雑さにわたる言語指示に従って、シミュレーションと物理的なロボット設定の両方で 3D パーツの接地と詳細な把握検出の実験を実行します。
結果は、私たちの方法が 3D ジオメトリのきめ細かいグラウンディング、オブジェクト アフォーダンス推論、および 3D パーツを認識した把握タスクにおいて競争力のあるパフォーマンスを達成していることを示しています。
データセットとコードは、プロジェクトの Web サイト https://sites.google.com/view/lang-shape で入手できます。

要約(オリジナル)

Robotic grasping is a fundamental ability for a robot to interact with the environment. Current methods focus on how to obtain a stable and reliable grasping pose in object level, while little work has been studied on part (shape)-wise grasping which is related to fine-grained grasping and robotic affordance. Parts can be seen as atomic elements to compose an object, which contains rich semantic knowledge and a strong correlation with affordance. However, lacking a large part-wise 3D robotic dataset limits the development of part representation learning and downstream applications. In this paper, we propose a new large Language-guided SHape grAsPing datasEt (named LangSHAPE) to promote 3D part-level affordance and grasping ability learning. From the perspective of robotic cognition, we design a two-stage fine-grained robotic grasping framework (named LangPartGPD), including a novel 3D part language grounding model and a part-aware grasp pose detection model, in which explicit language input from human or large language models (LLMs) could guide a robot to generate part-level 6-DoF grasping pose with textual explanation. Our method combines the advantages of human-robot collaboration and LLMs’ planning ability using explicit language as a symbolic intermediate. To evaluate the effectiveness of our proposed method, we perform 3D part grounding and fine-grained grasp detection experiments on both simulation and physical robot settings, following language instructions across different degrees of textual complexity. Results show our method achieves competitive performance in 3D geometry fine-grained grounding, object affordance inference, and 3D part-aware grasping tasks. Our dataset and code are available on our project website https://sites.google.com/view/lang-shape

arxiv情報

著者 Yaoxian Song,Penglei Sun,Piaopiao Jin,Yi Ren,Yu Zheng,Zhixu Li,Xiaowen Chu,Yue Zhang,Tiefeng Li,Jason Gu
発行日 2024-06-14 07:58:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.HC, cs.RO パーマリンク