要約
Segment Anything Model (SAM) などの Vision Foundation Model (VFM) は、ビジュアル コンテンツのゼロショットまたはインタラクティブなセグメンテーションを可能にするため、さまざまなビジュアル シーンにすぐに適用できます。
ただし、多くのリモート センシング (RS) アプリケーションでの直接使用は、RS 画像の特殊な画像特性により満足できないことがよくあります。
この研究では、VFM の強力な視覚認識機能を利用して、高解像度のリモート センシング画像 (RSI) の変化検出を向上させることを目指しています。
RS シーンの視覚表現を抽出するために、SAM の効率的なバリアントである FastSAM のビジュアル エンコーダーを採用します。
RS シーン内の特定の地上オブジェクトに焦点を当てるように FastSAM を適応させるために、タスク指向の変更情報を集約する畳み込みアダプターを提案します。
さらに、SAM 機能に固有の意味論的表現を利用するために、タスクに依存しない意味論的学習ブランチを導入して、バイタイムラル RSI の意味論的潜在をモデル化します。
その結果得られたメソッドである SAMCD は、SOTA メソッドと比較して優れた精度を獲得し、半教師あり CD メソッドに匹敵するサンプル効率の学習能力を示します。
私たちの知る限り、これは HR RSI の CD に VFM を適応させた最初の作品です。
要約(オリジナル)
Vision Foundation Models (VFMs) such as the Segment Anything Model (SAM) allow zero-shot or interactive segmentation of visual contents, thus they are quickly applied in a variety of visual scenes. However, their direct use in many Remote Sensing (RS) applications is often unsatisfactory due to the special imaging characteristics of RS images. In this work, we aim to utilize the strong visual recognition capabilities of VFMs to improve the change detection of high-resolution Remote Sensing Images (RSIs). We employ the visual encoder of FastSAM, an efficient variant of the SAM, to extract visual representations in RS scenes. To adapt FastSAM to focus on some specific ground objects in the RS scenes, we propose a convolutional adaptor to aggregate the task-oriented change information. Moreover, to utilize the semantic representations that are inherent to SAM features, we introduce a task-agnostic semantic learning branch to model the semantic latent in bi-temporal RSIs. The resulting method, SAMCD, obtains superior accuracy compared to the SOTA methods and exhibits a sample-efficient learning ability that is comparable to semi-supervised CD methods. To the best of our knowledge, this is the first work that adapts VFMs for the CD of HR RSIs.
arxiv情報
著者 | Lei Ding,Kun Zhu,Daifeng Peng,Hao Tang,Kuiwu Yang,Lorenzo Bruzzone |
発行日 | 2024-01-25 17:02:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google