Renormalized Connection for Scale-preferred Object Detection in Satellite Imagery

要約

衛星画像は、その長距離撮像により、微小物体の検出など、スケールに適したさまざまなタスクを伴うため、対象となる小さな物体の正確な位置特定と検出が困難なタスクとなります。
この記事では、効率的な特徴抽出の観点から繰り込み群理論を実装するための知識発見ネットワーク (KDN) を設計します。
KDN 上の繰り込み接続 (RC) により、マルチスケール フィーチャの「相乗的集中」が可能になります。
KDN の観察に基づいて、n21C と呼ばれる、異なる接続強度を持つ RC のクラスを抽象化し、それを FPN ベースのマルチブランチ検出器に一般化します。
スケール優先タスクに関する一連の FPN 実験では、FPN の「分割統治」の考え方が、多数の大規模なネガティブ サンプルと、
バックグラウンドノイズによる干渉。
さらに、これらの負のサンプルは焦点損失関数では除去できません。
RC は、FPN ベースの検出器のマルチレベル機能の「分割統治」メカニズムをスケール優先タスクの広範囲に拡張し、特定の学習目標に対するマルチレベル機能の相乗効果を可能にします。
さらに、2 つの側面での干渉の活性化が大幅に減少し、検出器はより正しい方向に学習します。
n21 を組み込んだ 17 の適切に設計された検出アーキテクチャを 5 つの異なるレベルのスケール優先タスクで広範に実験し、RC の有効性と効率性を検証しました。
特に、RC の最も単純な線形形式である E421C は、すべてのタスクで優れたパフォーマンスを発揮し、RGT のスケーリング特性を満たします。
私たちは、私たちのアプローチによって、適切に設計された多数の検出器がコンピューター ビジョン コミュニティからリモート センシング コミュニティに移行することを願っています。

要約(オリジナル)

Satellite imagery, due to its long-range imaging, brings with it a variety of scale-preferred tasks, such as the detection of tiny/small objects, making the precise localization and detection of small objects of interest a challenging task. In this article, we design a Knowledge Discovery Network (KDN) to implement the renormalization group theory in terms of efficient feature extraction. Renormalized connection (RC) on the KDN enables “synergistic focusing” of multi-scale features. Based on our observations of KDN, we abstract a class of RCs with different connection strengths, called n21C, and generalize it to FPN-based multi-branch detectors. In a series of FPN experiments on the scale-preferred tasks, we found that the “divide-and-conquer” idea of FPN severely hampers the detector’s learning in the right direction due to the large number of large-scale negative samples and interference from background noise. Moreover, these negative samples cannot be eliminated by the focal loss function. The RCs extends the multi-level feature’s “divide-and-conquer” mechanism of the FPN-based detectors to a wide range of scale-preferred tasks, and enables synergistic effects of multi-level features on the specific learning goal. In addition, interference activations in two aspects are greatly reduced and the detector learns in a more correct direction. Extensive experiments of 17 well-designed detection architectures embedded with n21s on five different levels of scale-preferred tasks validate the effectiveness and efficiency of the RCs. Especially the simplest linear form of RC, E421C performs well in all tasks and it satisfies the scaling property of RGT. We hope that our approach will transfer a large number of well-designed detectors from the computer vision community to the remote sensing community.

arxiv情報

著者 Fan Zhang,Lingling Li,Licheng Jiao,Xu Liu,Fang Liu,Shuyuan Yang,Biao Hou
発行日 2024-09-09 13:56:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク