Triplane Grasping: Efficient 6-DoF Grasping with Single RGB Images

要約

信頼できるオブジェクトの把握は、ロボット工学の基本的なタスクの1つです。
ただし、視覚情報が限られていることと実際のオブジェクトの複雑さのために、シングルイメージの入力に基づいて把握ポーズを決定することは長い間課題でした。
このホワイトペーパーでは、トリプレーンの把握を提案します。これは、入力として単一のRGBのみの画像のみにのみ依存する速い把握する意思決定方法です。
Triplane Graspingは、ポイントデコーダーとトリプレーンデコーダーを介してハイブリッドトリプレーンガウス3D表現を作成し、リアルタイムのグレーズ要件を満たすために把握するオブジェクトの効率的で高品質の再構築を生成します。
エンドツーエンドのネットワークを使用して、潜在的な把握接点としてポイントクラウドの3Dポイントから直接6-DOFパラレルジョーグラップ分布を生成し、観察されたデータに把握したポーズを固定することを提案します。
OmnioBject3DおよびGraspNet-10億のデータセットでの実験は、私たちの方法が毎日のオブジェクトの迅速なモデリングと把握が意思決定をもたらし、強力な一般化能力を達成することを示しています。

要約(オリジナル)

Reliable object grasping is one of the fundamental tasks in robotics. However, determining grasping pose based on single-image input has long been a challenge due to limited visual information and the complexity of real-world objects. In this paper, we propose Triplane Grasping, a fast grasping decision-making method that relies solely on a single RGB-only image as input. Triplane Grasping creates a hybrid Triplane-Gaussian 3D representation through a point decoder and a triplane decoder, which produce an efficient and high-quality reconstruction of the object to be grasped to meet real-time grasping requirements. We propose to use an end-to-end network to generate 6-DoF parallel-jaw grasp distributions directly from 3D points in the point cloud as potential grasp contacts and anchor the grasp pose in the observed data. Experiments on the OmniObject3D and GraspNet-1Billion datasets demonstrate that our method achieves rapid modeling and grasping pose decision-making for daily objects, and strong generalization capability.

arxiv情報

著者 Yiming Li,Hanchi Ren,Yue Yang,Jingjing Deng,Xianghua Xie
発行日 2025-05-20 09:53:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク