RS-MTDF: Multi-Teacher Distillation and Fusion for Remote Sensing Semi-Supervised Semantic Segmentation

要約

リモートセンシング画像のセマンティックセグメンテーションはさまざまなアプリケーションにとって重要ですが、そのパフォーマンスは、大規模で高品質のピクセルごとの注釈に大きく依存しており、有名で獲得に時間がかかります。
半監視セマンティックセグメンテーション(SSS)は、このデータ依存関係を緩和するための有望な代替手段を提供します。
ただし、既存のSSSメソッドは、限られたラベル付きデータと豊富な非標識データとの間の固有の分布の不一致に苦労し、最適ではない一般化につながります。
この問題を緩和するために、VFMSがこの分布ギャップを効果的に埋め、SSSに強力なセマンティックプライアーを提供できる堅牢な一般化機能を持っているため、Vision Foundation Models(VFMS)をSSSタスクに事前に訓練して導入しようとします。
これに触発されて、RS-MTDF(マルチティーチャーの蒸留と融合)を紹介します。これは、VFMに組み込まれた強力なセマンティック知識を活用して、リモートセンシングの半監視学習を導く新しいフレームワークです。
具体的には、RS-MTDFは、エキスパート教師として複数の冷凍VFM(DinoV2やClipなど)を採用しており、機能レベルの蒸留を利用して、学生の機能を堅牢な表現に合わせます。
識別力をさらに強化するために、蒸留された知識は学生のデコーダーにシームレスに融合されます。
3つの挑戦的なリモートセンシングデータセットでの広範な実験は、RS-MTDFが常に最先端のパフォーマンスを達成することを示しています。
特に、私たちの方法は、ラブダのさまざまなラベル比にわたって既存のアプローチよりも優れており、セマンティックカテゴリの大部分で最高のIOUを確保しています。
これらの結果は、リモートセンシングセグメンテーションの一般化とセマンティック理解の両方を大幅に向上させる上で、マルチティーチャーVFMガイダンスの有効性を強調しています。
アブレーション研究は、提案された各モジュールの寄与をさらに検証します。

要約(オリジナル)

Semantic segmentation in remote sensing images is crucial for various applications, yet its performance is heavily reliant on large-scale, high-quality pixel-wise annotations, which are notoriously expensive and time-consuming to acquire. Semi-supervised semantic segmentation (SSS) offers a promising alternative to mitigate this data dependency. However, existing SSS methods often struggle with the inherent distribution mismatch between limited labeled data and abundant unlabeled data, leading to suboptimal generalization. To alleviate this issue, we attempt to introduce the Vision Foundation Models (VFMs) pre-trained on vast and diverse datasets into the SSS task since VFMs possess robust generalization capabilities that can effectively bridge this distribution gap and provide strong semantic priors for SSS. Inspired by this, we introduce RS-MTDF (Multi-Teacher Distillation and Fusion), a novel framework that leverages the powerful semantic knowledge embedded in VFMs to guide semi-supervised learning in remote sensing. Specifically, RS-MTDF employs multiple frozen VFMs (e.g., DINOv2 and CLIP) as expert teachers, utilizing feature-level distillation to align student features with their robust representations. To further enhance discriminative power, the distilled knowledge is seamlessly fused into the student decoder. Extensive experiments on three challenging remote sensing datasets demonstrate that RS-MTDF consistently achieves state-of-the-art performance. Notably, our method outperforms existing approaches across various label ratios on LoveDA and secures the highest IoU in the majority of semantic categories. These results underscore the efficacy of multi-teacher VFM guidance in significantly enhancing both generalization and semantic understanding for remote sensing segmentation. Ablation studies further validate the contribution of each proposed module.

arxiv情報

著者 Jiayi Song,Kaiyu Li,Xiangyong Cao,Deyu Meng
発行日 2025-06-11 16:46:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク