AdaptiveSAM: Towards Efficient Tuning of SAM for Surgical Scene Segmentation

要約

セグメンテーションは、人工知能を使用した手術シーン分析における基本的な問題です。
ただし、このドメインには固有のデータ不足があるため、このタスクに従来のセグメンテーション手法を適用するのは困難です。
この問題に取り組むために、現在の研究では事前トレーニングされたモデルを採用し、与えられたデータに基づいて微調整しています。
それでも、新しいデータが利用可能になるたびに、数百万のパラメータを使用してディープネットワークをトレーニングする必要があります。
最近公開された基盤モデルである Segment-Anything (SAM) は、さまざまな自然画像にうまく一般化できるため、この課題に合理的な範囲で対処できます。
ただし、SAM は、微調整やタスク固有のプロンプトの使用に大量のコンピューティング リソースを利用しない限り、そのままでは医療分野にうまく一般化できません。
さらに、これらのプロンプトは、すべての画像に対して明示的に注釈を付ける必要がある境界ボックスまたは前景/背景ポイントの形式になっているため、データ サイズが大きくなるにつれて、このソリューションはますます面倒になります。
この研究では、テキストプロンプトによるセグメンテーションを可能にしながら、新しいデータセットに迅速かつ効率的に調整できる SAM の適応的修正である AdaptiveSAM を提案します。
AdaptiveSAM を微調整するために、SAM よりも大幅に少ない数のトレーニング可能なパラメーター (2% 未満) を必要とするバイアス調整と呼ばれるアプローチを提案します。
同時に、AdaptiveSAM は自由形式のテキストをプロンプトとして使用し、ラベル名だけをプロンプトとして使用して対象オブジェクトをセグメント化できるため、専門家の介入はほとんど必要ありません。
私たちの実験では、AdaptiveSAM が手術、超音波、X 線などのさまざまな医療画像データセットに対して現在の最先端の方法よりも優れたパフォーマンスを発揮することが示されています。
コードは https://github.com/JayParanjape/biastuning で入手できます。

要約(オリジナル)

Segmentation is a fundamental problem in surgical scene analysis using artificial intelligence. However, the inherent data scarcity in this domain makes it challenging to adapt traditional segmentation techniques for this task. To tackle this issue, current research employs pretrained models and finetunes them on the given data. Even so, these require training deep networks with millions of parameters every time new data becomes available. A recently published foundation model, Segment-Anything (SAM), generalizes well to a large variety of natural images, hence tackling this challenge to a reasonable extent. However, SAM does not generalize well to the medical domain as is without utilizing a large amount of compute resources for fine-tuning and using task-specific prompts. Moreover, these prompts are in the form of bounding-boxes or foreground/background points that need to be annotated explicitly for every image, making this solution increasingly tedious with higher data size. In this work, we propose AdaptiveSAM – an adaptive modification of SAM that can adjust to new datasets quickly and efficiently, while enabling text-prompted segmentation. For finetuning AdaptiveSAM, we propose an approach called bias-tuning that requires a significantly smaller number of trainable parameters than SAM (less than 2\%). At the same time, AdaptiveSAM requires negligible expert intervention since it uses free-form text as prompt and can segment the object of interest with just the label name as prompt. Our experiments show that AdaptiveSAM outperforms current state-of-the-art methods on various medical imaging datasets including surgery, ultrasound and X-ray. Code is available at https://github.com/JayParanjape/biastuning

arxiv情報

著者 Jay N. Paranjape,Nithin Gopalakrishnan Nair,Shameema Sikder,S. Swaroop Vedula,Vishal M. Patel
発行日 2023-08-07 17:12:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク