Texture-Semantic Collaboration Network for ORSI Salient Object Detection

要約

光学式リモートセンシング画像 (ORSI) における顕著物体検出 (SOD) は、最近ますます一般的になってきています。
ORSI の特性により、ORSI-SOD は複数のオブジェクト、小さなオブジェクト、低照度、不規則な形状などの課題に満ちています。
これらの課題に対処するために、ORSI-SOD のテクスチャ キューとセマンティック キューのコラボレーションを探索する、簡潔でありながら効果的なテクスチャ セマンティック コラボレーション ネットワーク (TSCNet) を提案します。
具体的には、TSCNet は汎用のエンコーダ/デコーダ構造に基づいています。
エンコーダとデコーダに加えて、TSCNet には重要なテクスチャ セマンティック コラボレーション モジュール (TSCM) が含まれており、エンコーダから抽出された基本機能に対して貴重な機能の変調と対話を実行します。
私たちの TSCM の主なアイデアは、最低レベルのテクスチャ特徴と最高レベルのセマンティック特徴を最大限に活用して、特徴上の顕著な領域の表現強化を実現することです。
TSCM では、まず意味論的な特徴を使用して潜在的な顕著領域の位置を強調します。
次に、テクスチャ機能を使用してオブジェクトの詳細をレンダリングし、復元します。
一方で、私たちはさまざまなスケールの領域を認識し、異なる領域間の相互作用を構築します。
TSCM と汎用構造の完璧な組み合わせのおかげで、当社の TSCNet は、顕著なオブジェクトの位置と詳細の両方を処理し、さまざまなシーンを効果的に処理できます。
3 つのデータセットに対する広範な実験により、当社の TSCNet が 14 の最先端の手法と比較して競争力のあるパフォーマンスを達成していることが実証されました。
私たちのメソッドのコードと結果は、https://github.com/MathLee/TSCNet で入手できます。

要約(オリジナル)

Salient object detection (SOD) in optical remote sensing images (ORSIs) has become increasingly popular recently. Due to the characteristics of ORSIs, ORSI-SOD is full of challenges, such as multiple objects, small objects, low illuminations, and irregular shapes. To address these challenges, we propose a concise yet effective Texture-Semantic Collaboration Network (TSCNet) to explore the collaboration of texture cues and semantic cues for ORSI-SOD. Specifically, TSCNet is based on the generic encoder-decoder structure. In addition to the encoder and decoder, TSCNet includes a vital Texture-Semantic Collaboration Module (TSCM), which performs valuable feature modulation and interaction on basic features extracted from the encoder. The main idea of our TSCM is to make full use of the texture features at the lowest level and the semantic features at the highest level to achieve the expression enhancement of salient regions on features. In the TSCM, we first enhance the position of potential salient regions using semantic features. Then, we render and restore the object details using the texture features. Meanwhile, we also perceive regions of various scales, and construct interactions between different regions. Thanks to the perfect combination of TSCM and generic structure, our TSCNet can take care of both the position and details of salient objects, effectively handling various scenes. Extensive experiments on three datasets demonstrate that our TSCNet achieves competitive performance compared to 14 state-of-the-art methods. The code and results of our method are available at https://github.com/MathLee/TSCNet.

arxiv情報

著者 Gongyang Li,Zhen Bai,Zhi Liu
発行日 2023-12-06 15:26:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク