SRMF: A Data Augmentation and Multimodal Fusion Approach for Long-Tail UHR Satellite Image Segmentation

要約

ロングテールの問題は、超高解像度(UHR)衛星画像におけるセマンティックセグメンテーションの進歩に対する重要な課題です。
UHRセマンティックセグメンテーションの以前の取り組みは、マルチスケールの特徴の抽出と融合を強調するマルチブランチネットワークアーキテクチャに大きく焦点を当てていますが、長期尾の問題に対処することの重要性を見落としていることがよくあります。
独立した特徴抽出に焦点を当てた以前のUHRメソッドとは対照的に、データの増強とマルチモーダル機能の融合を強調して、長期尾の問題を軽減します。
この論文では、UHR衛星画像のセマンティックセグメンテーションの新しいフレームワークであるSRMFを紹介します。
私たちのアプローチでは、セマンティックな並べ替えと再サンプリングに基づいたデータ増強戦略とともに、マルチスケールの作物技術を組み込むことにより、ロングテールクラスの分布に対処します。
モデルのパフォーマンスをさらに向上させるために、マルチモーダル融合ベースの一般的な表現知識インジェクションメソッドを提案します。これは、個々の地域のテキストの説明を必要とせずにテキストと視覚機能を初めて融合させ、より堅牢な機能を抽出します。
URUR、GID、およびFBPデータセットに関する広範な実験は、それぞれの方法が3.33 \%、0.66 \%、および0.98 \%をそれぞれ改善し、最先端のパフォーマンスを達成することを示しています。
コードは、https://github.com/binspa/srmf.gitで入手できます。

要約(オリジナル)

The long-tail problem presents a significant challenge to the advancement of semantic segmentation in ultra-high-resolution (UHR) satellite imagery. While previous efforts in UHR semantic segmentation have largely focused on multi-branch network architectures that emphasize multi-scale feature extraction and fusion, they have often overlooked the importance of addressing the long-tail issue. In contrast to prior UHR methods that focused on independent feature extraction, we emphasize data augmentation and multimodal feature fusion to alleviate the long-tail problem. In this paper, we introduce SRMF, a novel framework for semantic segmentation in UHR satellite imagery. Our approach addresses the long-tail class distribution by incorporating a multi-scale cropping technique alongside a data augmentation strategy based on semantic reordering and resampling. To further enhance model performance, we propose a multimodal fusion-based general representation knowledge injection method, which, for the first time, fuses text and visual features without the need for individual region text descriptions, extracting more robust features. Extensive experiments on the URUR, GID, and FBP datasets demonstrate that our method improves mIoU by 3.33\%, 0.66\%, and 0.98\%, respectively, achieving state-of-the-art performance. Code is available at: https://github.com/BinSpa/SRMF.git.

arxiv情報

著者 Yulong Guo,Zilun Zhang,Yongheng Shang,Tiancheng Zhao,Shuiguang Deng,Yingchun Yang,Jianwei Yin
発行日 2025-04-28 14:39:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク