要約
リモート センシング画像内の詳細なオブジェクトを正確に識別するには、きめ細かいリモート センシング画像のセグメンテーションが不可欠です。
最近、大規模なデータセットで事前トレーニングされたビジョン トランスフォーマー モデル (VTM) は強力なゼロショット汎化を示し、オブジェクト理解の一般知識を学習したことを示しています。
パフォーマンスを向上させるために、知識のガイダンスとドメインの洗練を組み合わせた、新しいエンドツーエンドの学習パラダイムを導入します。
ここでは、Feature Alignment Module (FAM) とFeature Modulation Module (FMM) という 2 つの主要なコンポーネントを紹介します。
FAM は、チャネル変換と空間補間を使用して、CNN ベースのバックボーンの特徴を事前トレーニングされた VTM のエンコーダーの特徴と調整し、KL 発散と L2 正規化制約を介して知識を転送します。
FMM はさらに、知識を特定のドメインに適応させてドメイン シフトに対処します。
また、きめの細かい草のセグメンテーション データセットを導入し、2 つのデータセットでの実験を通じて、私たちの方法が草のデータセットで 2.57 mIoU、雲のデータセットで 3.73 mIoU の大幅な改善を達成することを実証します。
この結果は、知識の伝達とドメインの適応を組み合わせて、ドメイン関連の課題とデータの制限を克服できる可能性を浮き彫りにしました。
プロジェクト ページは https://xavierjiezou.github.io/KTDA/ から入手できます。
要約(オリジナル)
Fine-grained remote sensing image segmentation is essential for accurately identifying detailed objects in remote sensing images. Recently, vision transformer models (VTM) pretrained on large-scale datasets have shown strong zero-shot generalization, indicating that they have learned the general knowledge of object understanding. We introduce a novel end-to-end learning paradigm combining knowledge guidance with domain refinement to enhance performance. We present two key components: the Feature Alignment Module (FAM) and the Feature Modulation Module (FMM). FAM aligns features from a CNN-based backbone with those from the pretrained VTM’s encoder using channel transformation and spatial interpolation, and transfers knowledge via KL divergence and L2 normalization constraint. FMM further adapts the knowledge to the specific domain to address domain shift. We also introduce a fine-grained grass segmentation dataset and demonstrate, through experiments on two datasets, that our method achieves a significant improvement of 2.57 mIoU on the grass dataset and 3.73 mIoU on the cloud dataset. The results highlight the potential of combining knowledge transfer and domain adaptation to overcome domain-related challenges and data limitations. The project page is available at https://xavierjiezou.github.io/KTDA/.
arxiv情報
著者 | Shun Zhang,Xuechao Zou,Kai Li,Congyan Lang,Shiying Wang,Pin Tao,Tengfei Cao |
発行日 | 2024-12-09 17:01:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google