ClassWise-SAM-Adapter: Parameter Efficient Fine-tuning Adapts Segment Anything to SAR Domain for Semantic Segmentation

要約

人工知能の領域において、高い計算能力と膨大なデータに裏打ちされた基盤モデルの出現は革命的である。数百万のパラメータと膨大な学習データセットSA-1Bを持つVision Transformer (ViT)モデル上に構築されたSegment Anything Model (SAM)は、意味情報の重要性と汎化能力により、様々なセグメンテーションシナリオにおいて卓越している。このような視覚基盤モデルの成果は、コンピュータビジョンにおける特定の下流タスクに関する継続的な研究を刺激する。ClassWise-SAM-Adapter(CWSAM)は、高性能なSAMを宇宙搭載合成開口レーダー(SAR)画像の地形分類に適応させるために設計されている。提案するCWSAMは、SAMのパラメータのほとんどを凍結し、パラメータを効率的に微調整するための軽量なアダプタを組み込み、セマンティックセグメンテーション課題を達成するためにクラスワイズマスクデコーダを設計する。このアダプトチューニング法により、SAR画像の土地被覆分類を効率的に行うことができ、精度と計算負荷のバランスをとることができる。さらに、タスクに特化した入力モジュールは、MLPベースの層によってSAR画像の低周波数情報を注入し、モデル性能を向上させる。広範な実験により、従来の最先端のセマンティックセグメンテーションアルゴリズムと比較して、CWSAMは少ない計算資源で向上した性能を示し、SAR領域における特定の下流タスクにSAMのような基礎モデルを活用する可能性を強調しています。ソースコードはhttps://github.com/xypu98/CWSAM。

要約(オリジナル)

In the realm of artificial intelligence, the emergence of foundation models, backed by high computing capabilities and extensive data, has been revolutionary. Segment Anything Model (SAM), built on the Vision Transformer (ViT) model with millions of parameters and vast training dataset SA-1B, excels in various segmentation scenarios relying on its significance of semantic information and generalization ability. Such achievement of visual foundation model stimulates continuous researches on specific downstream tasks in computer vision. The ClassWise-SAM-Adapter (CWSAM) is designed to adapt the high-performing SAM for landcover classification on space-borne Synthetic Aperture Radar (SAR) images. The proposed CWSAM freezes most of SAM’s parameters and incorporates lightweight adapters for parameter efficient fine-tuning, and a classwise mask decoder is designed to achieve semantic segmentation task. This adapt-tuning method allows for efficient landcover classification of SAR images, balancing the accuracy with computational demand. In addition, the task specific input module injects low frequency information of SAR images by MLP-based layers to improve the model performance. Compared to conventional state-of-the-art semantic segmentation algorithms by extensive experiments, CWSAM showcases enhanced performance with fewer computing resources, highlighting the potential of leveraging foundational models like SAM for specific downstream tasks in the SAR domain. The source code is available at: https://github.com/xypu98/CWSAM.

arxiv情報

著者 Xinyang Pu,Hecheng Jia,Linghao Zheng,Feng Wang,Feng Xu
発行日 2024-01-04 15:54:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク