要約
セグメント エニシング モデル (SAM) は、数百万の画像とセグメンテーション マスクで事前トレーニングされた基礎モデルであり、コンピューター ビジョンの基本タスクであるセマンティック セグメンテーションを大幅に進化させています。
SAM はその強みにもかかわらず、2 つの大きな課題に直面しています。
まず、ターゲットのオブジェクトを識別するためにユーザーがポイントや境界ボックスなどのプロンプトを手動で入力することに依存しているため、特定のオブジェクトを自律的にセグメント化するのに苦労します。
第 2 に、SAM は、主に一般領域の画像で構成される事前トレーニング データの分布と、下流タスクで使用されるデータとの間に差異があるため、医療画像処理などの特定の下流タスクで優れているという課題に直面しています。
これらの問題に対する現在の解決策は、SAM の微調整を必要とし、多くの場合オーバーフィッティングにつながります。これは、医療画像処理など、データが非常に限られているシナリオでは顕著な問題です。
これらの制限を克服するために、バイレベル最適化 (BLO) に基づいて SAM を微調整する BLO-SAM を導入します。
私たちのアプローチでは、学習可能なプロンプトの埋め込みを最適化することで、手動プロンプトを必要とせずに自動画像セグメンテーションを可能にします。
さらに、モデルの重みパラメーターをトレーニングし、トレーニング データセットの 2 つの異なるサブセットにそれぞれ異なる最適化レベルでプロンプト埋め込みを行うことにより、過学習のリスクを大幅に軽減します。
BLO-SAM を一般領域および医療領域のさまざまなセマンティック セグメンテーション タスクに適用します。
この結果は、さまざまな最先端の画像セマンティック セグメンテーション手法よりも BLO-SAM のパフォーマンスが優れていることを示しています。
要約(オリジナル)
The Segment Anything Model (SAM), a foundation model pretrained on millions of images and segmentation masks, has significantly advanced semantic segmentation, a fundamental task in computer vision. Despite its strengths, SAM encounters two major challenges. Firstly, it struggles with segmenting specific objects autonomously, as it relies on users to manually input prompts like points or bounding boxes to identify targeted objects. Secondly, SAM faces challenges in excelling at specific downstream tasks, like medical imaging, due to a disparity between the distribution of its pretraining data, which predominantly consists of general-domain images, and the data used in downstream tasks. Current solutions to these problems, which involve finetuning SAM, often lead to overfitting, a notable issue in scenarios with very limited data, like in medical imaging. To overcome these limitations, we introduce BLO-SAM, which finetunes SAM based on bi-level optimization (BLO). Our approach allows for automatic image segmentation without the need for manual prompts, by optimizing a learnable prompt embedding. Furthermore, it significantly reduces the risk of overfitting by training the model’s weight parameters and the prompt embedding on two separate subsets of the training dataset, each at a different level of optimization. We apply BLO-SAM to diverse semantic segmentation tasks in general and medical domains. The results demonstrate BLO-SAM’s superior performance over various state-of-the-art image semantic segmentation methods.
arxiv情報
著者 | Li Zhang,Youwei Liang,Ruiyi Zhang,Amirhosein Javadi,Pengtao Xie |
発行日 | 2024-03-11 16:40:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google