Prompt-Tuning SAM: From Generalist to Specialist with only 2048 Parameters and 16 Training Images

要約

Segment Anyny Anything Model(SAM)は、ポイントや境界ボックスなどの単純なユーザープロンプトから、自然画像の多様なオブジェクトをセグメント化するために広く使用されています。
ただし、SAMのパフォーマンスは、顕微鏡イメージングのような非天然ドメインに適用すると大幅に減少します。
さらに、SAMのインタラクティブなデザインにより、多くの自動化された生物医学的アプリケーションでは実行不可能な各画像とオブジェクトに正確なプロンプトが必要です。
以前のソリューションは、モデルまたはアダプター層の大部分を微調整することにより、何百万ものパラメーターをトレーニングすることにより、SAMを適応させます。
対照的に、SAMを特定のダウンストリームタスクのユースケーススペシャリストに変えるのに、わずか2,048の追加パラメーターで十分であることを示しています。
私たちの新規PTSAM(プロンプトチューニングSAM)メソッドでは、パラメーター効率の高い微調整技術であるプロンプトチューニングを使用して、SAMを特定のタスクに適応させます。
複数の顕微鏡と1つの医療データセットでのアプローチのパフォーマンスを検証します。
私たちの結果は、Samのマスクのみの迅速なデコーダーのみが、最先端の技術を備えたパフォーマンスにつながるが、約2,000倍の訓練可能なパラメーターが必要であることを示しています。
ドメインのギャップに対処するために、Samの画像エンコーダーをさらに迅速に調整することが有益であり、最新の結果よりも最大18%セグメンテーションの精度を改善することがわかります。
PTSAMは、わずか16の注釈付き画像で確実にトレーニングできるため、トレーニングデータとドメインシフトが限られているアプリケーションに特に役立ちます。

要約(オリジナル)

The Segment Anything Model (SAM) is widely used for segmenting a diverse range of objects in natural images from simple user prompts like points or bounding boxes. However, SAM’s performance decreases substantially when applied to non-natural domains like microscopic imaging. Furthermore, due to SAM’s interactive design, it requires a precise prompt for each image and object, which is unfeasible in many automated biomedical applications. Previous solutions adapt SAM by training millions of parameters via fine-tuning large parts of the model or of adapter layers. In contrast, we show that as little as 2,048 additional parameters are sufficient for turning SAM into a use-case specialist for a certain downstream task. Our novel PTSAM (prompt-tuned SAM) method uses prompt-tuning, a parameter-efficient fine-tuning technique, to adapt SAM for a specific task. We validate the performance of our approach on multiple microscopic and one medical dataset. Our results show that prompt-tuning only SAM’s mask decoder already leads to a performance on-par with state-of-the-art techniques while requiring roughly 2,000x less trainable parameters. For addressing domain gaps, we find that additionally prompt-tuning SAM’s image encoder is beneficial, further improving segmentation accuracy by up to 18% over state-of-the-art results. Since PTSAM can be reliably trained with as little as 16 annotated images, we find it particularly helpful for applications with limited training data and domain shifts.

arxiv情報

著者 Tristan Piater,Björn Barz,Alexander Freytag
発行日 2025-04-23 14:10:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク