High-Speed Detector For Low-Powered Devices In Aerial Grasping

要約

自律的な空中収穫は、小型の低電力コンピューティング デバイスで実行する多数の学際的なアルゴリズムを必要とするため、非常に複雑な問題です。
物体検出は、計算量を多く必要とするアルゴリズムの 1 つです。
これに関連して、当社は以下の貢献を行っています。(i) Fast Fruit Detector (FFD)、当社の新しい潜在オブジェクト表現 (LOR) モジュール、クエリ割り当て、
そして予測戦略。
FFD は、最新の 10W NVIDIA Jetson-NX 組み込みデバイスで 100FPS@FP32 の精度を達成しながら、制御、把握、SLAM などの他のタイムクリティカルなサブシステムと共存します。これは、この研究の主な成果です。
(ii) 果物の画像は多数のインスタンスで構成されているため、ラベル付けのコストと時間が増加するため、果物の画像を徹底的に手動でラベル付けすることなく、膨大な量のトレーニング データを生成する方法。
(iii) オープンソースの果物検出データセットには、検出が困難な非常に小さいサイズのインスタンスが多数含まれています。
私たちと MinneApple データセットに対する徹底的な評価により、FFD は単一スケールの検出器にすぎないが、多くの代表的な検出器よりも正確であることが示されています。
FFD は、シングルスケール Faster-RCNN より 10.7AP、マルチスケール Faster-RCNN より 2.3AP、最新のシングルスケール YOLO-v8 より 8AP、マルチスケール YOLO-v8 より 0.3AP 優れており、かなり高速です。

要約(オリジナル)

Autonomous aerial harvesting is a highly complex problem because it requires numerous interdisciplinary algorithms to be executed on mini low-powered computing devices. Object detection is one such algorithm that is compute-hungry. In this context, we make the following contributions: (i) Fast Fruit Detector (FFD), a resource-efficient, single-stage, and postprocessing-free object detector based on our novel latent object representation (LOR) module, query assignment, and prediction strategy. FFD achieves 100FPS@FP32 precision on the latest 10W NVIDIA Jetson-NX embedded device while co-existing with other time-critical sub-systems such as control, grasping, SLAM, a major achievement of this work. (ii) a method to generate vast amounts of training data without exhaustive manual labelling of fruit images since they consist of a large number of instances, which increases the labelling cost and time. (iii) an open-source fruit detection dataset having plenty of very small-sized instances that are difficult to detect. Our exhaustive evaluations on our and MinneApple dataset show that FFD, being only a single-scale detector, is more accurate than many representative detectors, e.g. FFD is better than single-scale Faster-RCNN by 10.7AP, multi-scale Faster-RCNN by 2.3AP, and better than latest single-scale YOLO-v8 by 8AP and multi-scale YOLO-v8 by 0.3 while being considerably faster.

arxiv情報

著者 Ashish Kumar,Laxmidhar Behera
発行日 2024-02-22 14:44:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク