Towards Foundation Models and Few-Shot Parameter-Efficient Fine-Tuning for Volumetric Organ Segmentation

要約

ファンデーションモデルの最近の人気と、大規模なモデルが下流タスクに転送されるトレイン前および適応前のパラダイムは、ボリュームのある医療画像セグメンテーションに注目を集めています。
ただし、転送学習のために完全な微調整に専念する現在の転送学習戦略は、ターゲットタスクのラベルデータが不足している場合、重要なリソースを必要とし、最適下の結果をもたらす場合があります。
これにより、これらの機関は通常、独自のソリューションを開発するためのデータと計算リソースに制約されているため、実際の臨床環境での適用性が困難になります。
この課題に対処するために、医療画像セグメンテーションファンデーションモデルを適応させるための斬新で現実的なシナリオである、少数のショット効率の高い微調整(FSEFT)を正式にします。
この設定は、適応中のデータとパラメーター効率の両方の重要な役割を考慮します。
オープンアクセスCT臓器セグメンテーションソースで事前に訓練された基礎モデルに基づいて、このような課題に対処するためにパラメーター効率の高い微調整およびブラックボックスアダプターを活用することを提案します。
さらに、この作業では、新しい効率的な適応方法論が導入されています。これには、密な予測タスクと制約された移植推論により適した空間的ブラックボックスアダプターが含まれ、タスク固有の事前知識を活用します。
当社の包括的な転送学習実験は、医療画像セグメンテーションにおける基礎モデルの適合性を確認し、少ないショットシナリオで人気のある微調整戦略の制限を明らかにします。

要約(オリジナル)

The recent popularity of foundation models and the pre-train-and-adapt paradigm, where a large-scale model is transferred to downstream tasks, is gaining attention for volumetric medical image segmentation. However, current transfer learning strategies devoted to full fine-tuning for transfer learning may require significant resources and yield sub-optimal results when the labeled data of the target task is scarce. This makes its applicability in real clinical settings challenging since these institutions are usually constrained on data and computational resources to develop proprietary solutions. To address this challenge, we formalize Few-Shot Efficient Fine-Tuning (FSEFT), a novel and realistic scenario for adapting medical image segmentation foundation models. This setting considers the key role of both data- and parameter-efficiency during adaptation. Building on a foundation model pre-trained on open-access CT organ segmentation sources, we propose leveraging Parameter-Efficient Fine-Tuning and black-box Adapters to address such challenges. Furthermore, novel efficient adaptation methodologies are introduced in this work, which include Spatial black-box Adapters that are more appropriate for dense prediction tasks and constrained transductive inference, leveraging task-specific prior knowledge. Our comprehensive transfer learning experiments confirm the suitability of foundation models in medical image segmentation and unveil the limitations of popular fine-tuning strategies in few-shot scenarios.

arxiv情報

著者 Julio Silva-Rodríguez,Jose Dolz,Ismail Ben Ayed
発行日 2025-05-09 15:20:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク