TuneVLSeg: Prompt Tuning Benchmark for Vision-Language Segmentation Models

要約

視覚言語モデル (VLM) は、視覚タスクにおいて優れたパフォーマンスを示していますが、それを新しい領域に適応させるには、多くの場合、費用のかかる微調整が必​​要になります。
テキスト、ビジュアル、マルチモーダル プロンプトなどのプロンプト チューニング手法は、学習可能なプロンプトを活用することで効率的な代替手段を提供します。
ただし、視覚言語セグメンテーション モデル (VLSM) へのそれらの適用と、大幅なドメイン シフトの下での評価は未調査のままです。
この研究では、さまざまなユニモーダルおよびマルチモーダル プロンプト チューニング技術を VLSM に統合するためのオープンソース ベンチマーク フレームワーク TuneVLSeg を紹介し、任意の数のクラスを持つ下流のセグメンテーション データセットに対してプロンプト チューニングを使用できるようにします。
TuneVLSeg には、$2$ の VLSM で使用されるさまざまなプロンプトの深さに関する $6$ のプロンプト チューニング戦略が含まれており、合計 $8$ の異なる組み合わせになります。
私たちは、3 ドルの放射線学データセット (乳腫瘍、心エコー検査、胸部 X 線病理学) と 5 ドルの非放射線学データセット (ポリープ、潰瘍、皮膚がん) を含む 8 ドルの多様な医療データセット、および 2 つの自然なドメイン セグメンテーションでさまざまな迅速な調整をテストします。
データセット。
私たちの研究では、自然領域の画像から医療データまで、大幅な領域の変化の下では、テキストのプロンプト調整が困難であることがわかりました。
さらに、視覚的なプロンプト チューニングは、マルチモーダル プロンプト チューニングよりもハイパーパラメーターが少なく、マルチモーダル アプローチに匹敵するパフォーマンスを達成できることが多く、最初の試みとしては価値があります。
私たちの研究は、堅牢なドメイン固有のセグメンテーションのためのさまざまなプロンプト チューニング手法の理解と適用性を前進させます。
ソース コードは https://github.com/naamiinepal/tunevlseg で入手できます。

要約(オリジナル)

Vision-Language Models (VLMs) have shown impressive performance in vision tasks, but adapting them to new domains often requires expensive fine-tuning. Prompt tuning techniques, including textual, visual, and multimodal prompting, offer efficient alternatives by leveraging learnable prompts. However, their application to Vision-Language Segmentation Models (VLSMs) and evaluation under significant domain shifts remain unexplored. This work presents an open-source benchmarking framework, TuneVLSeg, to integrate various unimodal and multimodal prompt tuning techniques into VLSMs, making prompt tuning usable for downstream segmentation datasets with any number of classes. TuneVLSeg includes $6$ prompt tuning strategies on various prompt depths used in $2$ VLSMs totaling of $8$ different combinations. We test various prompt tuning on $8$ diverse medical datasets, including $3$ radiology datasets (breast tumor, echocardiograph, chest X-ray pathologies) and $5$ non-radiology datasets (polyp, ulcer, skin cancer), and two natural domain segmentation datasets. Our study found that textual prompt tuning struggles under significant domain shifts, from natural-domain images to medical data. Furthermore, visual prompt tuning, with fewer hyperparameters than multimodal prompt tuning, often achieves performance competitive to multimodal approaches, making it a valuable first attempt. Our work advances the understanding and applicability of different prompt-tuning techniques for robust domain-specific segmentation. The source code is available at https://github.com/naamiinepal/tunevlseg.

arxiv情報

著者 Rabin Adhikari,Safal Thapaliya,Manish Dhakal,Bishesh Khanal
発行日 2024-10-07 17:42:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク