要約
機能に基づいて物体の特定の部分を把握するタスク指向の把握は、動的な環境で複雑なタスクを実行できる高度なロボット システムを開発するために重要です。
この論文では、ゼロショットのタスク指向の把握生成のために意味論的事前確率と幾何事前確率の両方を組み込んだトレーニング不要のフレームワークを提案します。
提案されたフレームワークである SegGrasp は、まず GLIP などの視覚言語モデルを利用して粗いセグメンテーションを行います。
次に、凸分解からの詳細な幾何学的情報を使用して、GeoFusion という名前の融合ポリシーを通じてセグメンテーションの品質を向上させます。
効果的な把握ポーズは、セグメンテーションが改善された把握ネットワークによって生成できます。
セグメンテーションベンチマークと現実世界のロボットの把握の両方について実験を実施しました。
実験結果は、SegGrasp が把握およびセグメンテーションのパフォーマンスにおいてベースラインを 15\% 以上上回っていることを示しています。
要約(オリジナル)
Task-oriented grasping, which involves grasping specific parts of objects based on their functions, is crucial for developing advanced robotic systems capable of performing complex tasks in dynamic environments. In this paper, we propose a training-free framework that incorporates both semantic and geometric priors for zero-shot task-oriented grasp generation. The proposed framework, SegGrasp, first leverages the vision-language models like GLIP for coarse segmentation. It then uses detailed geometric information from convex decomposition to improve segmentation quality through a fusion policy named GeoFusion. An effective grasp pose can be generated by a grasping network with improved segmentation. We conducted the experiments on both segmentation benchmark and real-world robot grasping. The experimental results show that SegGrasp surpasses the baseline by more than 15\% in grasp and segmentation performance.
arxiv情報
著者 | Haosheng Li,Weixin Mao,Weipeng Deng,Chenyu Meng,Rui Zhang,Fan Jia,Tiancai Wang,Haoqiang Fan,Hongan Wang,Xiaoming Deng |
発行日 | 2024-10-11 15:22:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google