PathoTune: Adapting Visual Foundation Model to Pathological Specialists

要約

自然な画像理解がプレトレイン・ファインチューン時代に向かうにつれて、病理イメージングの研究も同時に進化しています。
病理学的基礎モデルの事前トレーニングに主に焦点が当てられているにもかかわらず、基礎モデルを下流のタスクに適応させる方法はほとんど検討されていません。
下流の適応に関して、我々は 2 つのドメイン ギャップ、つまり基盤とタスクのギャップとタスクとインスタンスのギャップの存在を提案します。
これらのギャップを軽減するために、マルチモーダル プロンプト チューニングを通じて病理学的または視覚的基礎モデルを病理学特有のタスクに効率的に適応させるように設計されたフレームワークである PathoTune を導入します。
提案されたフレームワークは、タスク固有のビジュアル プロンプトとタスク固有のテキスト プロンプトを活用して、タスク関連の特徴を識別するとともに、単一の病理学的画像特徴をエンコードするためのインスタンス固有のビジュアル プロンプトを利用します。
パッチ レベルと WSI レベルの両方での複数のデータセットにわたる結果は、単一モダリティのプロンプト チューニング アプローチよりも優れたパフォーマンスを示しています。
重要なことに、PathoTune は自然な視覚基礎モデルを病理学的タスクに直接適応させることを容易にし、単純な線形プローブによる病理学的基礎モデルよりも大幅に優れたパフォーマンスを発揮します。
コードは承認されると利用可能になります。

要約(オリジナル)

As natural image understanding moves towards the pretrain-finetune era, research in pathology imaging is concurrently evolving. Despite the predominant focus on pretraining pathological foundation models, how to adapt foundation models to downstream tasks is little explored. For downstream adaptation, we propose the existence of two domain gaps, i.e., the Foundation-Task Gap and the Task-Instance Gap. To mitigate these gaps, we introduce PathoTune, a framework designed to efficiently adapt pathological or even visual foundation models to pathology-specific tasks via multi-modal prompt tuning. The proposed framework leverages Task-specific Visual Prompts and Task-specific Textual Prompts to identify task-relevant features, along with Instance-specific Visual Prompts for encoding single pathological image features. Results across multiple datasets at both patch-level and WSI-level demonstrate its superior performance over single-modality prompt tuning approaches. Significantly, PathoTune facilitates the direct adaptation of natural visual foundation models to pathological tasks, drastically outperforming pathological foundation models with simple linear probing. The code will be available upon acceptance.

arxiv情報

著者 Jiaxuan Lu,Fang Yan,Xiaofan Zhang,Yue Gao,Shaoting Zhang
発行日 2024-03-25 07:29:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク