Improving the Generalization of Segmentation Foundation Model under Distribution Shift via Weakly Supervised Adaptation

要約

大規模な言語モデルの成功により、コンピュータ ビジョン コミュニティは、迅速なエンジニアリングを通じてゼロショットまたは少数ショットを一般化できる画像セグメンテーション基盤モデルを探求するようになりました。
とりわけ、Segment-Anything (SAM) は、強力なゼロ/少数ショット一般化を実証する最先端の画像セグメンテーション基礎モデルです。
成功にもかかわらず、最近の研究では、分布の大きな変化の下での SAM の弱点が明らかになりました。
特に、SAM は破損した自然画像、偽装画像、医療画像などに対してぎこちなく動作します。この観察を動機として、私たちは SAM をターゲットの分布に適応させるための自己学習ベースの戦略を開発することを目指しています。
大規模なソース データセット、高い計算コスト、不正確な擬似ラベルという特有の課題を考慮して、適応の堅牢性と計算効率を向上させるために、アンカー正則化と低ランク微調整を備えた弱く教師ありの自己トレーニング アーキテクチャを提案します。
自然なクリーン/破損画像、医療画像、偽装画像、ロボット画像を含む 5 種類の下流セグメンテーション タスクに対する有効性を検証します。
私たちが提案する手法は本質的にタスクに依存せず、同じテスト プロンプト入力を使用するほぼすべての下流タスクにおいて、事前トレーニングされた SAM および最先端のドメイン適応手法よりも優れたパフォーマンスを発揮します。

要約(オリジナル)

The success of large language models has inspired the computer vision community to explore image segmentation foundation model that is able to zero/few-shot generalize through prompt engineering. Segment-Anything(SAM), among others, is the state-of-the-art image segmentation foundation model demonstrating strong zero/few-shot generalization. Despite the success, recent studies reveal the weakness of SAM under strong distribution shift. In particular, SAM performs awkwardly on corrupted natural images, camouflaged images, medical images, etc. Motivated by the observations, we aim to develop a self-training based strategy to adapt SAM to target distribution. Given the unique challenges of large source dataset, high computation cost and incorrect pseudo label, we propose a weakly supervised self-training architecture with anchor regularization and low-rank finetuning to improve the robustness and computation efficiency of adaptation. We validate the effectiveness on 5 types of downstream segmentation tasks including natural clean/corrupted images, medical images, camouflaged images and robotic images. Our proposed method is task-agnostic in nature and outperforms pre-trained SAM and state-of-the-art domain adaptation methods on almost all downstream tasks with the same testing prompt inputs.

arxiv情報

著者 Haojie Zhang,Yongyi Su,Xun Xu,Kui Jia
発行日 2023-12-06 13:59:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク