VMGNet: A Low Computational Complexity Robotic Grasping Network Based on VMamba with Multi-Scale Feature Fusion

要約

深層学習ベースのロボット把握テクノロジーは高い適応性を示していますが、計算の複雑さも大幅に増加しているため、リアルタイム要件の高いシナリオには適していません。
そこで、ロボットによる把持のための、計算量が少なく、高精度な VMGNet という名前のモデルを提案します。
初めて、視覚状態空間をロボットの把持分野に導入して、線形計算の複雑さを実現し、それによってモデルの計算コストを大幅に削減します。
一方、モデルの精度を向上させるために、さまざまなスケールで情報を抽出して融合する、Fusion Bridge Module という名前の効率的で軽量のマルチスケール特徴融合モジュールを提案します。
また、サブタスク間の重要度の違いを強調し、モデルのフィッティング能力を向上させるための新しい損失関数計算方法も紹介します。
実験の結果、VMGNet には 8.7G 浮動小数点演算しかなく、デバイス上の推論時間は 8.1 ミリ秒であることがわかりました。
VMGNet は、Cornell および Jacquard の公開データセットでも最先端のパフォーマンスを達成しました。
実際のアプリケーションにおける VMGNet の有効性を検証するために、複数オブジェクトのシナリオで実際の把握実験を実施しました。その結果、VMGNet は現実世界の把握タスクにおいて 94.4% の成功率という優れたパフォーマンスを達成しました。
実際のロボットによる掴み実験のビデオは、https://youtu.be/S-QHBtbmLc4 でご覧いただけます。

要約(オリジナル)

While deep learning-based robotic grasping technology has demonstrated strong adaptability, its computational complexity has also significantly increased, making it unsuitable for scenarios with high real-time requirements. Therefore, we propose a low computational complexity and high accuracy model named VMGNet for robotic grasping. For the first time, we introduce the Visual State Space into the robotic grasping field to achieve linear computational complexity, thereby greatly reducing the model’s computational cost. Meanwhile, to improve the accuracy of the model, we propose an efficient and lightweight multi-scale feature fusion module, named Fusion Bridge Module, to extract and fuse information at different scales. We also present a new loss function calculation method to enhance the importance differences between subtasks, improving the model’s fitting ability. Experiments show that VMGNet has only 8.7G Floating Point Operations and an inference time of 8.1 ms on our devices. VMGNet also achieved state-of-the-art performance on the Cornell and Jacquard public datasets. To validate VMGNet’s effectiveness in practical applications, we conducted real grasping experiments in multi-object scenarios, and VMGNet achieved an excellent performance with a 94.4% success rate in real-world grasping tasks. The video for the real-world robotic grasping experiments is available at https://youtu.be/S-QHBtbmLc4.

arxiv情報

著者 Yuhao Jin,Qizhong Gao,Xiaohui Zhu,Yong Yue,Eng Gee Lim,Yuqing Chen,Prudence Wong,Yijie Chu
発行日 2024-11-19 14:07:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク