GraspCoT: Integrating Physical Property Reasoning for 6-DoF Grasping under Flexible Language Instructions

要約

柔軟な指導ガイド付き6-DOFグラッピングは、実際のロボットシステムにとって重要でありながら挑戦的なタスクです。
既存の方法では、大規模な言語モデル(LLM)のコンテキスト理解機能を利用して、式とターゲット間のマッピングを確立し、ロボットが指示におけるユーザーの意図を理解できるようにします。
ただし、オブジェクトの物理的特性に関するLLMの知識は、把握に激しく関連しているにもかかわらず、既知のままです。
この作業では、補助的な質問回答(QA)タスクに導かれた物理的特性を指す、思考チェーン(COT)推論メカニズムを統合する6-DOF GRASP検出フレームワークであるGraspCotを提案します。
特に、ターゲット解析、物理的特性分析、アクション選択の把握を含む階層的推論を可能にするために、一連のQAテンプレートを設計します。
さらに、GraspCotは統一されたマルチモーダルLLMアーキテクチャを提示します。このアーキテクチャは、3Dシーンのマルチビュー観測を3Dに認識した視覚トークンにエンコードし、COT由来のテキストトークンをLLMS内に共同で埋め込み、把握ポーズ予測を生成します。
さらに、多様および間接的な言語コマンドの下でのマルチオブジェクトグラス検出のためのパブリックデータセットのギャップを埋める大規模なベンチマークであるIntentGraspを提示します。
IntentGraspに関する広範な実験は、私たちの方法の優位性を示しており、実際のロボットアプリケーションでの追加の検証がその実用性を確認しています。
コードとデータがリリースされます。

要約(オリジナル)

Flexible instruction-guided 6-DoF grasping is a significant yet challenging task for real-world robotic systems. Existing methods utilize the contextual understanding capabilities of the large language models (LLMs) to establish mappings between expressions and targets, allowing robots to comprehend users’ intentions in the instructions. However, the LLM’s knowledge about objects’ physical properties remains underexplored despite its tight relevance to grasping. In this work, we propose GraspCoT, a 6-DoF grasp detection framework that integrates a Chain-of-Thought (CoT) reasoning mechanism oriented to physical properties, guided by auxiliary question-answering (QA) tasks. Particularly, we design a set of QA templates to enable hierarchical reasoning that includes three stages: target parsing, physical property analysis, and grasp action selection. Moreover, GraspCoT presents a unified multimodal LLM architecture, which encodes multi-view observations of 3D scenes into 3D-aware visual tokens, and then jointly embeds these visual tokens with CoT-derived textual tokens within LLMs to generate grasp pose predictions. Furthermore, we present IntentGrasp, a large-scale benchmark that fills the gap in public datasets for multi-object grasp detection under diverse and indirect verbal commands. Extensive experiments on IntentGrasp demonstrate the superiority of our method, with additional validation in real-world robotic applications confirming its practicality. Codes and data will be released.

arxiv情報

著者 Xiaomeng Chu,Jiajun Deng,Guoliang You,Wei Liu,Xingchen Li,Jianmin Ji,Yanyong Zhang
発行日 2025-03-20 10:32:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク