要約
無人航空機による物体検出(UAV-OD)は、様々な場面で広く利用されている。しかし、既存のUAV-ODアルゴリズムのほとんどは、手動で設計されたコンポーネントに依存しており、大規模なチューニングが必要である。このような手動設計部品に依存しないエンドツーエンドモデルは、主に自然画像用に設計されており、UAV画像にはあまり有効ではない。このような課題に対処するため、本論文ではUAV画像に合わせた効率的な検出変換(DETR)フレームワーク、すなわちUAV-DETRを提案する。このフレームワークには、異なるスケールの空間情報と周波数情報の両方を取り込む、周波数強調モジュールによるマルチスケール特徴フュージョンが含まれる。さらに、周波数に焦点を当てたダウンサンプリングモジュールにより、ダウンサンプリング時に重要な空間的詳細を保持する。セマンティックアライメントとキャリブレーションモジュールは、異なるフュージョンパスからの特徴をアライメントし、融合するために開発された。実験結果は、様々なUAV画像データセットにおける本アプローチの有効性と汎用性を実証している。VisDroneデータセットにおいて、本手法はベースラインよりAPを3.1%改善し、$text{AP}_{50}$を4.2%改善した。同様の改善がUAVVasteデータセットでも観測された。プロジェクトページ:https://github.com/ValiantDiligent/UAV-DETR
要約(オリジナル)
Unmanned aerial vehicle object detection (UAV-OD) has been widely used in various scenarios. However, most existing UAV-OD algorithms rely on manually designed components, which require extensive tuning. End-to-end models that do not depend on such manually designed components are mainly designed for natural images, which are less effective for UAV imagery. To address such challenges, this paper proposes an efficient detection transformer (DETR) framework tailored for UAV imagery, i.e., UAV-DETR. The framework includes a multi-scale feature fusion with frequency enhancement module, which captures both spatial and frequency information at different scales. In addition, a frequency-focused down-sampling module is presented to retain critical spatial details during down-sampling. A semantic alignment and calibration module is developed to align and fuse features from different fusion paths. Experimental results demonstrate the effectiveness and generalization of our approach across various UAV imagery datasets. On the VisDrone dataset, our method improves AP by 3.1\% and $\text{AP}_{50}$ by 4.2\% over the baseline. Similar enhancements are observed on the UAVVaste dataset. The project page: https://github.com/ValiantDiligent/UAV-DETR
arxiv情報
著者 | Huaxiang Zhang,Kai Liu,Zhongxue Gan,Guo-Niu Zhu |
発行日 | 2025-01-03 15:11:14+00:00 |
arxivサイト | arxiv_id(pdf) |