LGI-DETR: Local-Global Interaction for UAV Object Detection

要約

UAVは、さまざまな分野で広く使用されています。
ただし、ドローンで使用される既存のオブジェクト検出器のほとんどはエンドツーエンドではなく、さまざまな複雑なコンポーネントの設計と慎重な微調整が必​​要です。
既存のエンドツーエンドオブジェクト検出器のほとんどは、自然なシーン向けに設計されています。
UAV画像に直接適用することは理想的ではありません。
上記の課題を解決するために、UAVのローカルグローバル情報相互作用DETR、つまりLGI-Detrを設計します。
相互層の双方向の低レベルおよび高レベルの特徴情報の向上、この融合方法は、特に小さな異議検出の分野で効果的です。
エンコーダーの初期段階では、ローカル空間強化モジュール(LSE)を提案します。これにより、低レベルのリッチローカル空間情報が高レベルの機能に強化され、高レベルの情報の伝送プロセスでのローカル情報の損失が減少します。
エンコーダーの最終段階では、豊富な高レベルのグローバルセマンティック表現を低レベル機能マップと統合するように設計された新しいグローバル情報噴射モジュール(GII)を提案します。
この階層融合メカニズムは、特徴階層全体にコンテキスト情報を伝播することにより、局所受容フィールドの固有の制限に効果的に対処します。
2つの挑戦的なUAV画像オブジェクト検出ベンチマークであるVisdrone2019とUAVDTの実験結果は、提案されたモデルがSOTAモデルよりも優れていることを示しています。
ベースラインモデルと比較して、APとAP50はそれぞれ1.9%と2.4%改善されました。

要約(オリジナル)

UAV has been widely used in various fields. However, most of the existing object detectors used in drones are not end-to-end and require the design of various complex components and careful fine-tuning. Most of the existing end-to-end object detectors are designed for natural scenes. It is not ideal to apply them directly to UAV images. In order to solve the above challenges, we design an local-global information interaction DETR for UAVs, namely LGI-DETR. Cross-layer bidirectional low-level and high-level feature information enhancement, this fusion method is effective especially in the field of small objection detection. At the initial stage of encoder, we propose a local spatial enhancement module (LSE), which enhances the low-level rich local spatial information into the high-level feature, and reduces the loss of local information in the transmission process of high-level information. At the final stage of the encoder, we propose a novel global information injection module (GII) designed to integrate rich high-level global semantic representations with low-level feature maps. This hierarchical fusion mechanism effectively addresses the inherent limitations of local receptive fields by propagating contextual information across the feature hierarchy. Experimental results on two challenging UAV image object detection benchmarks, VisDrone2019 and UAVDT, show that our proposed model outperforms the SOTA model. Compared to the baseline model, AP and AP50 improved by 1.9% and 2.4%, respectively.

arxiv情報

著者 Zifa Chen
発行日 2025-03-24 15:32:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク