Localization, balance and affinity: a stronger multifaceted collaborative salient object detector in remote sensing images

要約

光学リモートセンシング画像 (ORSI) における顕著物体検出 (SOD) は大幅に進歩しましたが、ORSI の複雑なエッジ構造とそれらの文脈関係の複雑さのため、課題は依然として残っています。
現在の深層学習アプローチでは、境界特徴を正確に特定することが困難であり、コンテキスト特徴を活用して前景と背景を協調的にモデリングする効率が不足しています。
これらの課題に対処するために、我々は、位置特定、バランス、および親和性の側面を組み込んだ、LBA-MCNet と呼ばれる、ORSI における強力な多面連携顕著物体検出器を提案します。
このネットワークは、ターゲットの正確な位置特定、詳細な機能のバランス調整、画像レベルのグローバル コンテキスト情報のモデリングに重点を置いています。
具体的には、エッジ特徴を使用して境界への注意を誘導し、空間の詳細を保持することで、正確なエッジ位置特定を行うためのエッジ特徴適応型バランス調整 (EFABA) モジュールを設計します。
さらに、グローバル コンテキストをモデル化するための Global Distributed Affinity Learning (GDAL) モジュールを設計します。
エンコーダの最終層からアフィニティ マップを生成することでグローバル コンテキストをキャプチャし、グローバル パターンの効果的なモデリングを保証します。
さらに、デコンボリューション中の詳細な監視により、特徴表現がさらに強化されます。
最後に、公開されている 3 つのデータセットに対する 28 の最先端のアプローチと比較しました。
結果は、私たちの方法の優位性を明確に示しています。

要約(オリジナル)

Despite significant advancements in salient object detection(SOD) in optical remote sensing images(ORSI), challenges persist due to the intricate edge structures of ORSIs and the complexity of their contextual relationships. Current deep learning approaches encounter difficulties in accurately identifying boundary features and lack efficiency in collaboratively modeling the foreground and background by leveraging contextual features. To address these challenges, we propose a stronger multifaceted collaborative salient object detector in ORSIs, termed LBA-MCNet, which incorporates aspects of localization, balance, and affinity. The network focuses on accurately locating targets, balancing detailed features, and modeling image-level global context information. Specifically, we design the Edge Feature Adaptive Balancing and Adjusting(EFABA) module for precise edge localization, using edge features to guide attention to boundaries and preserve spatial details. Moreover, we design the Global Distributed Affinity Learning(GDAL) module to model global context. It captures global context by generating an affinity map from the encoders final layer, ensuring effective modeling of global patterns. Additionally, deep supervision during deconvolution further enhances feature representation. Finally, we compared with 28 state of the art approaches on three publicly available datasets. The results clearly demonstrate the superiority of our method.

arxiv情報

著者 Yakun Xie,Suning Liu,Hongyu Chen,Shaohan Cao,Huixin Zhang,Dejun Feng,Qian Wan,Jun Zhu,Qing Zhu
発行日 2024-10-31 14:50:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク