KGNv2: Separating Scale and Pose Prediction for Keypoint-based 6-DoF Grasp Synthesis on RGB-D input

要約

キーポイントに基づく 2D/2.5D 入力からの新しい 6-DoF 把握ポーズ合成アプローチを提案します。
画像入力からのキーポイントベースの把持検出器は、以前の研究で有望な結果を示しており、カラー画像によって提供される追加の視覚情報がノイズの多い奥行き知覚を補正します。
ただし、画像空間内のキーポイントの位置を正確に予測することに大きく依存しています。
この論文では、正確なキーポイント推定への依存を減らす新しい把握生成ネットワークを考案します。
RGB-D 入力が与えられると、私たちのネットワークは、キーポイント検出からの把握ポーズと、カメラへのスケールの両方を推定します。
キーポイント予測ノイズの Perspective-n-Point (PnP) アルゴリズムへの悪影響を軽減するために、キーポイント出力空間をさらに再設計します。
実験は、提案された方法がベースラインよりも大幅に優れていることを示しており、私たちのアプローチの有効性を検証しています。
最後に、単純な合成オブジェクトでトレーニングされているにもかかわらず、私たちの方法は、現実世界のロボット実験で競争力のある結果を示すことにより、sim-to-real の能力を示しています。

要約(オリジナル)

We propose a new 6-DoF grasp pose synthesis approach from 2D/2.5D input based on keypoints. Keypoint-based grasp detector from image input has demonstrated promising results in the previous study, where the additional visual information provided by color images compensates for the noisy depth perception. However, it relies heavily on accurately predicting the location of keypoints in the image space. In this paper, we devise a new grasp generation network that reduces the dependency on precise keypoint estimation. Given an RGB-D input, our network estimates both the grasp pose from keypoint detection as well as scale towards the camera. We further re-design the keypoint output space in order to mitigate the negative impact of keypoint prediction noise to Perspective-n-Point (PnP) algorithm. Experiments show that the proposed method outperforms the baseline by a large margin, validating the efficacy of our approach. Finally, despite trained on simple synthetic objects, our method demonstrate sim-to-real capacity by showing competitive results in real-world robot experiments.

arxiv情報

著者 Yiye Chen,Ruinian Xu,Yunzhi Lin,Hongyi Chen,Patricio A. Vela
発行日 2023-03-16 20:28:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO パーマリンク