要約
人間の自然な把持を生成するためには、物体の形状だけでなく、意味情報も考慮する必要があります。物体の形状のみに依存した把持ポーズ生成手法では、下流タスクへの応用が困難である。本論文では、セマンティック情報を把持表現に組み込むことで、静的な人間の把持ポーズを生成する、SemGraspと呼ばれる新しいセマンティックベースの把持生成手法を紹介する。把持空間と意味空間を一致させる離散表現を導入することで、言語指示に従った把持姿勢の生成を可能にする。その後、Multimodal Large Language Model (MLLM)を微調整し、物体、把持、言語を統一的な意味空間の中で統合する。SemGraspの学習を容易にするために、我々は約260kの詳細なキャプションと50kの多様な把持を含む、CapGraspと名付けられた大規模な、把持とテキストを整合させたデータセットを作成した。実験結果は、SemGraspが言語的意図に沿った自然な人間の把持を効率的に生成することを示している。我々のコード、モデル、データセットはhttps://kailinli.github.io/SemGrasp。
要約(オリジナル)
Generating natural human grasps necessitates consideration of not just object geometry but also semantic information. Solely depending on object shape for grasp generation confines the applications of prior methods in downstream tasks. This paper presents a novel semantic-based grasp generation method, termed SemGrasp, which generates a static human grasp pose by incorporating semantic information into the grasp representation. We introduce a discrete representation that aligns the grasp space with semantic space, enabling the generation of grasp postures in accordance with language instructions. A Multimodal Large Language Model (MLLM) is subsequently fine-tuned, integrating object, grasp, and language within a unified semantic space. To facilitate the training of SemGrasp, we have compiled a large-scale, grasp-text-aligned dataset named CapGrasp, featuring about 260k detailed captions and 50k diverse grasps. Experimental findings demonstrate that SemGrasp efficiently generates natural human grasps in alignment with linguistic intentions. Our code, models, and dataset are available publicly at: https://kailinli.github.io/SemGrasp.
arxiv情報
著者 | Kailin Li,Jingbo Wang,Lixin Yang,Cewu Lu,Bo Dai |
発行日 | 2024-04-04 16:58:26+00:00 |
arxivサイト | arxiv_id(pdf) |