An Efficient Aerial Image Detection with Variable Receptive Fields

要約

無人航空機(UAV)を使用した空中オブジェクトの検出は、10pxのターゲット、密なオクルージョン、厳しい計算上の制約を含む重要な課題に直面しています。
既存の検出器は、剛性の受容フィールドと冗長アーキテクチャによる精度と効率のバランスをとるのに苦労しています。
これらの制限に対処するために、3つの重要なコンポーネントを組み込んだ変圧器ベースの検出器である可変受容フィールドDETR(VRF-DERT)を提案します:1)マルチスケールコンテキスト融合(MSCF)モジュールは、適応的な空間的注意とゲートマルチスケール融合を介して機能を動的に再調整する、2)のムーブリックエクセレーションモデルを介したconvoluted eving eding concontexe
ダイナミックゲーティング、および3)カスケードされたグローバルローカル相互作用を介してオブジェクトを階層的に解き放つオブジェクトを階層的に解き放つゲートマルチスケール融合(GMCF)ボトルネック。
Visdrone2019での実験は、VRF-DETRが51.4 \%MAP \ TextSubscript {50}および31.8 \%Map \ TextSubscript {50:95}を13.5mパラメーターで達成することを示しています。
この作業は、UAVベースの検出タスクのための新しい効率的アクセラシーパレートフロンティアを確立します。

要約(オリジナル)

Aerial object detection using unmanned aerial vehicles (UAVs) faces critical challenges including sub-10px targets, dense occlusions, and stringent computational constraints. Existing detectors struggle to balance accuracy and efficiency due to rigid receptive fields and redundant architectures. To address these limitations, we propose Variable Receptive Field DETR (VRF-DETR), a transformer-based detector incorporating three key components: 1) Multi-Scale Context Fusion (MSCF) module that dynamically recalibrates features through adaptive spatial attention and gated multi-scale fusion, 2) Gated Convolution (GConv) layer enabling parameter-efficient local-context modeling via depthwise separable operations and dynamic gating, and 3) Gated Multi-scale Fusion (GMCF) Bottleneck that hierarchically disentangles occluded objects through cascaded global-local interactions. Experiments on VisDrone2019 demonstrate VRF-DETR achieves 51.4\% mAP\textsubscript{50} and 31.8\% mAP\textsubscript{50:95} with only 13.5M parameters. This work establishes a new efficiency-accuracy Pareto frontier for UAV-based detection tasks.

arxiv情報

著者 Liu Wenbin
発行日 2025-04-21 15:16:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク