Convolution Meets LoRA: Parameter Efficient Finetuning for Segment Anything Model

要約

Segment Anything Model (SAM) は、画像セグメンテーションの基本的なフレームワークとして機能します。
一般的なシナリオでは顕著なゼロショット汎用性を示しますが、医療画像やリモート センシングなどの特殊な領域に適用すると、その利点は減少します。
この制限に対処するために、このホワイト ペーパーでは、シンプルで効果的なパラメーター効率の高い微調整アプローチである Conv-LoRA を紹介します。
超軽量の畳み込みパラメータを低ランク適応 (LoRA) に統合することで、Conv-LoRA は画像関連の誘導バイアスをプレーン ViT エンコーダに注入し、SAM のローカル事前仮定をさらに強化できます。
特に、Conv-LoRA は、SAM の広範なセグメンテーションの知識を保存するだけでなく、SAM の前景と背景のセグメンテーションの事前トレーニングによって制限されている高レベルの画像セマンティクスを学習する能力を復活させます。
複数のドメインにわたる多様なベンチマークにわたる包括的な実験により、SAM を現実世界のセマンティック セグメンテーション タスクに適応させる際の Conv-LoRA の優位性が強調されます。

要約(オリジナル)

The Segment Anything Model (SAM) stands as a foundational framework for image segmentation. While it exhibits remarkable zero-shot generalization in typical scenarios, its advantage diminishes when applied to specialized domains like medical imagery and remote sensing. To address this limitation, this paper introduces Conv-LoRA, a simple yet effective parameter-efficient fine-tuning approach. By integrating ultra-lightweight convolutional parameters into Low-Rank Adaptation (LoRA), Conv-LoRA can inject image-related inductive biases into the plain ViT encoder, further reinforcing SAM’s local prior assumption. Notably, Conv-LoRA not only preserves SAM’s extensive segmentation knowledge but also revives its capacity of learning high-level image semantics, which is constrained by SAM’s foreground-background segmentation pretraining. Comprehensive experimentation across diverse benchmarks spanning multiple domains underscores Conv-LoRA’s superiority in adapting SAM to real-world semantic segmentation tasks.

arxiv情報

著者 Zihan Zhong,Zhiqiang Tang,Tong He,Haoyang Fang,Chun Yuan
発行日 2024-01-31 14:27:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク