Training-free Task-oriented Grasp Generation

要約

このペーパーでは、事前に訓練された把握モデルとビジョン言語モデル(VLM)を組み合わせたタスク指向の把握生成のためのトレーニングフリーパイプラインを紹介します。
安定した握りのみに焦点を当てた従来のアプローチとは異なり、私たちの方法には、VLMSのセマンティック推論機能を活用することにより、タスク固有の要件が組み込まれています。
5つのクエリ戦略を評価し、それぞれが候補の握りの異なる視覚表現を利用し、成功とタスクコンプライアンス率の両方でベースライン方法よりも大幅な改善を示し、全体的な成功率が最大36.9%の絶対的な増加を示します。
私たちの結果は、タスク指向の操作を強化するVLMの可能性を強調し、ロボットグラッピングと人間とロボットの相互作用における将来の研究の洞察を提供します。

要約(オリジナル)

This paper presents a training-free pipeline for task-oriented grasp generation that combines pre-trained grasp generation models with vision-language models (VLMs). Unlike traditional approaches that focus solely on stable grasps, our method incorporates task-specific requirements by leveraging the semantic reasoning capabilities of VLMs. We evaluate five querying strategies, each utilizing different visual representations of candidate grasps, and demonstrate significant improvements over a baseline method in both grasp success and task compliance rates, with absolute gains of up to 36.9% in overall success rate. Our results underline the potential of VLMs to enhance task-oriented manipulation, providing insights for future research in robotic grasping and human-robot interaction.

arxiv情報

著者 Jiaming Wang,Jizhuo Chen,Diwen Liu
発行日 2025-02-07 12:26:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク