要約
ロボット把握は、ロボットが環境と対話するための基本的な能力です。
現在の方法は、オブジェクトレベルで安定した信頼性の高い握るポーズを取得する方法に焦点を当てていますが、細粒の握りとロボットアフォーダンスに関連するパート(形状)の握手はほとんど研究されていません。
部品は、豊富な意味的知識とアフォーダンスとの強い相関を含むオブジェクトを構成する原子要素と見なすことができます。
ただし、大部分が不足しているため、3Dロボットデータセットは、部分表現学習とダウンストリームアプリケーションの開発が制限されます。
この論文では、3Dパートレベルのアフォーダンスと把握能力学習を促進するために、新しい大規模な言語誘導形状データセット(Langshape)を把握することを提案します。
ロボット認知の観点から見ると、2段階の細かいロボットグラッシングフレームワーク(LangpartGPDという名前)を設計します。これには、新しい3Dパート言語接地モデルや、人間または大手言語モデルからの明示的な言語入力(LLM)からの明示的な言語入力(LLM)がロボットを導き、パートレベルの6-DOFグラッシングポーズを使用してロボットを導くことができます。
私たちの方法は、象徴的な中間体として明示的な言語を使用して、人間とロボットのコラボレーションとLLMSの計画能力の利点を組み合わせています。
提案された方法の有効性を評価するために、さまざまな程度のテキストの複雑さにわたって言語命令に従って、シミュレーションと物理ロボットの両方の設定で3D部品の接地と細粒の把持検出実験を実行します。
結果は、私たちの方法が、3Dジオメトリの微細粒度の接地、オブジェクトアフォーダンス推論、および3Dパートアウェアグラッシングタスクで競争力のあるパフォーマンスを達成することを示しています。
データセットとコードは、プロジェクトWebサイトhttps://sites.google.com/view/lang-shapeで入手できます
要約(オリジナル)
Robotic grasping is a fundamental ability for a robot to interact with the environment. Current methods focus on how to obtain a stable and reliable grasping pose in object level, while little work has been studied on part (shape)-wise grasping which is related to fine-grained grasping and robotic affordance. Parts can be seen as atomic elements to compose an object, which contains rich semantic knowledge and a strong correlation with affordance. However, lacking a large part-wise 3D robotic dataset limits the development of part representation learning and downstream applications. In this paper, we propose a new large Language-guided SHape grAsPing datasEt (named LangSHAPE) to promote 3D part-level affordance and grasping ability learning. From the perspective of robotic cognition, we design a two-stage fine-grained robotic grasping framework (named LangPartGPD), including a novel 3D part language grounding model and a part-aware grasp pose detection model, in which explicit language input from human or large language models (LLMs) could guide a robot to generate part-level 6-DoF grasping pose with textual explanation. Our method combines the advantages of human-robot collaboration and LLMs’ planning ability using explicit language as a symbolic intermediate. To evaluate the effectiveness of our proposed method, we perform 3D part grounding and fine-grained grasp detection experiments on both simulation and physical robot settings, following language instructions across different degrees of textual complexity. Results show our method achieves competitive performance in 3D geometry fine-grained grounding, object affordance inference, and 3D part-aware grasping tasks. Our dataset and code are available on our project website https://sites.google.com/view/lang-shape
arxiv情報
著者 | Yaoxian Song,Penglei Sun,Piaopiao Jin,Yi Ren,Yu Zheng,Zhixu Li,Xiaowen Chu,Yue Zhang,Tiefeng Li,Jason Gu |
発行日 | 2025-04-30 09:22:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google