Towards a High-Performance Object Detector: Insights from Drone Detection Using ViT and CNN-based Deep Learning Models

要約

ドローンの衝突回避、ドローンの防御、自律型無人航空機(UAV)の自己着陸においては、正確なドローン検出が強く求められています。
最近のビジョン トランスフォーマー (ViT) の出現により、この論文では 1,359 枚のドローン写真で構成される UAV データセットを使用して、この重要なタスクを再評価します。
私たちはさまざまな CNN および ViT ベースのモデルを構築し、単一ドローン検出の場合、基本的な ViT が当社の最高の CNN ベースの転移学習モデルよりも 4.6 倍堅牢なパフォーマンスを達成できることを実証しました。
最先端の You Only Look Once (YOLO v7、200 エポック) と実験的な ViT ベースの You Only Look At One Sequence (YOLOS、20 エポック) をマルチドローン検出に実装することで、98% という驚異的な検出率を達成しました。
それぞれ96%のmAP値。
ViT は同じエポックで CNN よりも優れたパフォーマンスを発揮しますが、最先端の CNN 検出器の能力を完全に上回るには、より多くのトレーニング データ、計算能力、洗練されたパフォーマンス指向の設計が必要であることがわかりました。
将来の研究者がより効率的な深層学習モデルを開発するのに役立つように、ViT モデルと CNN モデルの明確な特徴を要約します。

要約(オリジナル)

Accurate drone detection is strongly desired in drone collision avoidance, drone defense and autonomous Unmanned Aerial Vehicle (UAV) self-landing. With the recent emergence of the Vision Transformer (ViT), this critical task is reassessed in this paper using a UAV dataset composed of 1359 drone photos. We construct various CNN and ViT-based models, demonstrating that for single-drone detection, a basic ViT can achieve performance 4.6 times more robust than our best CNN-based transfer learning models. By implementing the state-of-the-art You Only Look Once (YOLO v7, 200 epochs) and the experimental ViT-based You Only Look At One Sequence (YOLOS, 20 epochs) in multi-drone detection, we attain impressive 98% and 96% mAP values, respectively. We find that ViT outperforms CNN at the same epoch, but also requires more training data, computational power, and sophisticated, performance-oriented designs to fully surpass the capabilities of cutting-edge CNN detectors. We summarize the distinct characteristics of ViT and CNN models to aid future researchers in developing more efficient deep learning models.

arxiv情報

著者 Junyang Zhang
発行日 2023-08-19 03:57:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク