YOLO-SPCI: Enhancing Remote Sensing Object Detection via Selective-Perspective-Class Integration

要約

リモートセンシング画像のオブジェクト検出は、極端なスケールの変動、密なオブジェクト分布、および乱雑な背景のために、困難なタスクのままです。
Yolov8などの最近の検出器は有望な結果を示していますが、それらのバックボーンアーキテクチャには、高解像度の航空データのパフォーマンスを制限するマルチスケールの特徴の改良性を導く明示的なメカニズムがありません。
この作業では、特徴表現を改善するための軽量の選択的パース型クラス統合(SPCI)モジュールを導入する注意強化された検出フレームワークであるYolo-SPCIを提案します。
SPCIモジュールは、グローバルフィーチャフローの適応規制のための選択的ストリームゲート(SSG)、コンテキスト認識マルチスケール統合のための視点融合モジュール(PFM)、およびクラス間識別モジュール(CDM)の3つのコンポーネントを統合します。
2つのSPCIブロックをYolov8骨格のP3およびP5段階に埋め込み、元の首と頭との互換性を維持しながら効果的な改良性を可能にしました。
NWPU VHR-10データセットの実験は、ヨロ-SPCIが最先端の検出器と比較して優れた性能を達成することを示しています。

要約(オリジナル)

Object detection in remote sensing imagery remains a challenging task due to extreme scale variation, dense object distributions, and cluttered backgrounds. While recent detectors such as YOLOv8 have shown promising results, their backbone architectures lack explicit mechanisms to guide multi-scale feature refinement, limiting performance on high-resolution aerial data. In this work, we propose YOLO-SPCI, an attention-enhanced detection framework that introduces a lightweight Selective-Perspective-Class Integration (SPCI) module to improve feature representation. The SPCI module integrates three components: a Selective Stream Gate (SSG) for adaptive regulation of global feature flow, a Perspective Fusion Module (PFM) for context-aware multi-scale integration, and a Class Discrimination Module (CDM) to enhance inter-class separability. We embed two SPCI blocks into the P3 and P5 stages of the YOLOv8 backbone, enabling effective refinement while preserving compatibility with the original neck and head. Experiments on the NWPU VHR-10 dataset demonstrate that YOLO-SPCI achieves superior performance compared to state-of-the-art detectors.

arxiv情報

著者 Xinyuan Wang,Lian Peng,Xiangcheng Li,Yilin He,KinTak U
発行日 2025-05-27 16:00:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク