要約
物体を確実に把握することは、ロボット工学における基本的なタスクの 1 つです。
しかし、限られた視覚情報と現実世界のオブジェクトの複雑さのため、単一画像入力に基づいて把握ポーズを決定することは長い間課題でした。
この論文では、入力として 1 つの RGB のみの画像のみに依存する高速把握意思決定手法である Triplane Grasping を提案します。
Triplane Grasping は、ポイント デコーダとトリプレーン デコーダを通じてハイブリッド トリプレーン ガウス 3D 表現を作成します。これにより、リアルタイムの把握要件を満たすために把握されるオブジェクトの効率的かつ高品質な再構築が生成されます。
エンドツーエンドのネットワークを使用して、潜在的な把握接触として点群内の 3D 点から直接 6-DoF 平行ジョー把握分布を生成し、観測データに把握ポーズを固定することを提案します。
実験は、私たちの方法が日常の物体の迅速なモデリングと把握姿勢の意思決定を達成し、ゼロショットシナリオで高い把握成功率を示すことを示しています。
要約(オリジナル)
Reliable object grasping is one of the fundamental tasks in robotics. However, determining grasping pose based on single-image input has long been a challenge due to limited visual information and the complexity of real-world objects. In this paper, we propose Triplane Grasping, a fast grasping decision-making method that relies solely on a single RGB-only image as input. Triplane Grasping creates a hybrid Triplane-Gaussian 3D representation through a point decoder and a triplane decoder, which produce an efficient and high-quality reconstruction of the object to be grasped to meet real-time grasping requirements. We propose to use an end-to-end network to generate 6-DoF parallel-jaw grasp distributions directly from 3D points in the point cloud as potential grasp contacts and anchor the grasp pose in the observed data. Experiments demonstrate that our method achieves rapid modeling and grasping pose decision-making for daily objects, and exhibits a high grasping success rate in zero-shot scenarios.
arxiv情報
著者 | Yiming Li,Hanchi Ren,Jingjing Deng,Xianghua Xie |
発行日 | 2024-10-21 10:59:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google