要約
最近導入された Visual Foundation Model (VFM) である Segment Anything Model (SAM) は、多様な自然画像データセットにわたるゼロショット セグメンテーション タスクにおいて優れた機能を実証しました。
SAM は成功しましたが、医療画像などの特定のドメインに適用すると、パフォーマンスが著しく低下します。
この問題に対処する現在の取り組みには、バニラ SAM の汎用性を強化することを目的とした微調整戦略が含まれています。
ただし、これらのアプローチでは依然として、評価段階でドメイン固有の専門家レベルのプロンプトを利用することが大部分で必要となり、モデルの実用性が大きく制約されます。
この制限を克服するために、バニラ SAM モデルを拡張するために調整された、SAM-SP と呼ばれる新しい自己プロンプトベースの微調整アプローチを導入します。
具体的には、SAM-SP は、モデル自体の前の反復からの出力を、モデルの後続の反復をガイドするプロンプトとして利用します。
このセルフプロンプト モジュールは、有用なプロンプトを自律的に生成する方法を学習するよう努め、評価段階での専門家のプロンプトへの依存を軽減し、SAM の適用範囲を大幅に広げます。
さらに、自己促進プロセスをさらに強化するために自己蒸留モジュールを統合しています。
さまざまなドメイン固有のデータセットにわたる広範な実験により、提案された SAM-SP の有効性が検証されています。
当社の SAM-SP は、専門家のプロンプトへの依存を軽減するだけでなく、最先端のタスク固有のセグメンテーション アプローチ、バニラ SAM、および SAM ベースのアプローチと比較して優れたセグメンテーション パフォーマンスを示します。
要約(オリジナル)
The recently introduced Segment Anything Model (SAM), a Visual Foundation Model (VFM), has demonstrated impressive capabilities in zero-shot segmentation tasks across diverse natural image datasets. Despite its success, SAM encounters noticeably performance degradation when applied to specific domains, such as medical images. Current efforts to address this issue have involved fine-tuning strategies, intended to bolster the generalizability of the vanilla SAM. However, these approaches still predominantly necessitate the utilization of domain specific expert-level prompts during the evaluation phase, which severely constrains the model’s practicality. To overcome this limitation, we introduce a novel self-prompting based fine-tuning approach, called SAM-SP, tailored for extending the vanilla SAM model. Specifically, SAM-SP leverages the output from the previous iteration of the model itself as prompts to guide subsequent iteration of the model. This self-prompting module endeavors to learn how to generate useful prompts autonomously and alleviates the dependence on expert prompts during the evaluation phase, significantly broadening SAM’s applicability. Additionally, we integrate a self-distillation module to enhance the self-prompting process further. Extensive experiments across various domain specific datasets validate the effectiveness of the proposed SAM-SP. Our SAM-SP not only alleviates the reliance on expert prompts but also exhibits superior segmentation performance comparing to the state-of-the-art task-specific segmentation approaches, the vanilla SAM, and SAM-based approaches.
arxiv情報
著者 | Chunpeng Zhou,Kangjie Ning,Qianqian Shen,Sheng Zhou,Zhi Yu,Haishuai Wang |
発行日 | 2024-08-22 13:03:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google