要約
最近導入された Segment Anything Model (SAM) などの基礎モデルは、画像セグメンテーション タスクにおいて目覚ましい成果を上げています。
ただし、これらのモデルは通常、境界ボックスなどの手作りのプロンプトを介したユーザー対話を必要とするため、その展開は下流のタスクに限定されます。
完全にラベル付けされたデータを使用してこれらのモデルを特定のタスクに適応させるには、グラウンド トゥルース アノテーションを取得するための、費用のかかる事前のユーザー インタラクションも必要になります。
この研究では、入力プロンプトの条件付けを、画像の埋め込みからプロンプトの埋め込みを直接学習する軽量モジュールに置き換えることを提案しています。これらの両方は、その後、基礎モデルによってセグメンテーション マスクを出力するために使用されます。
学習可能なプロンプトを備えた基礎モデルは、1) 単純なモジュールによって予測されたプロンプト埋め込みを通じて入力を変更し、2) 弱いラベル (タイトな境界ボックス) と少数ショット監視 (10 サンプル) を使用することによって、特定の領域を自動的にセグメント化できます。
私たちのアプローチは、医療画像用に微調整された SAM バージョンである MedSAM で検証されており、MR および超音波画像処理の 3 つの医療データセットで結果が得られています。
私たちのコードは https://github.com/Minimel/MedSAMWeakFewShotPromptAutomation で入手できます。
要約(オリジナル)
Foundation models such as the recently introduced Segment Anything Model (SAM) have achieved remarkable results in image segmentation tasks. However, these models typically require user interaction through handcrafted prompts such as bounding boxes, which limits their deployment to downstream tasks. Adapting these models to a specific task with fully labeled data also demands expensive prior user interaction to obtain ground-truth annotations. This work proposes to replace conditioning on input prompts with a lightweight module that directly learns a prompt embedding from the image embedding, both of which are subsequently used by the foundation model to output a segmentation mask. Our foundation models with learnable prompts can automatically segment any specific region by 1) modifying the input through a prompt embedding predicted by a simple module, and 2) using weak labels (tight bounding boxes) and few-shot supervision (10 samples). Our approach is validated on MedSAM, a version of SAM fine-tuned for medical images, with results on three medical datasets in MR and ultrasound imaging. Our code is available on https://github.com/Minimel/MedSAMWeakFewShotPromptAutomation.
arxiv情報
著者 | Mélanie Gaillochet,Christian Desrosiers,Hervé Lombaert |
発行日 | 2024-09-30 13:53:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google