VGQ-CNN: Moving Beyond Fixed Cameras and Top-Grasps for Grasp Quality Prediction

要約

6自由度の把握のための把握品質予測ネットワークである多用途の把握品質畳み込みニューラルネットワーク(VGQ-CNN)を紹介します。
VGQ-CNNは、ネットワークを再トレーニングすることなく、さまざまなカメラポーズや移動ロボットから見たオブジェクトの把持を評価するときに使用できます。
VGQ-CNNは、ネットワークへの入力として把握方向を明示的に定義することにより、GQ-CNNなどのほとんどの画像ベースの把握評価方法で使用される4-DOF把握を超えて、6-DOF把握ポーズを評価できます。
VGQ-CNNをトレーニングするために、さまざまなカメラポーズから観測された6-DOF把握を含む新しいVersatile Graspデータセット(VG-dset)を生成します。
VGQ-CNNは、さまざまなカメラポーズに一般化しながら、テスト分割で82.1%のバランスの取れた精度を達成します。
一方、GQ-CNNの76.6%と比較して74.2%のバランスの取れた精度で、オーバーヘッドカメラとトップグリップの競争力のあるパフォーマンスを実現します。
また、共有エンコーダアーキテクチャを使用して推論を高速化し、CPU上で12ミリ秒で128の把握品質予測を実行できる、修正されたネットワークアーキテクチャであるFAST-VGQ-CNNを提案します。
コードとデータはhttps://aucoroboticsmu.github.io/vgq-cnn/で入手できます。

要約(オリジナル)

We present the Versatile Grasp Quality Convolutional Neural Network (VGQ-CNN), a grasp quality prediction network for 6-DOF grasps. VGQ-CNN can be used when evaluating grasps for objects seen from a wide range of camera poses or mobile robots without the need to retrain the network. By defining the grasp orientation explicitly as an input to the network, VGQ-CNN can evaluate 6-DOF grasp poses, moving beyond the 4-DOF grasps used in most image-based grasp evaluation methods like GQ-CNN. To train VGQ-CNN, we generate the new Versatile Grasp dataset (VG-dset) containing 6-DOF grasps observed from a wide range of camera poses. VGQ-CNN achieves a balanced accuracy of 82.1% on our test-split while generalising to a variety of camera poses. Meanwhile, it achieves competitive performance for overhead cameras and top-grasps with a balanced accuracy of 74.2% compared to GQ-CNN’s 76.6%. We also propose a modified network architecture, FAST-VGQ-CNN, that speeds up inference using a shared encoder architecture and can make 128 grasp quality predictions in 12ms on a CPU. Code and data are available at https://aucoroboticsmu.github.io/vgq-cnn/.

arxiv情報

著者 A. Konrad,J. McDonald,R. Villing
発行日 2022-06-23 17:31:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク