Pathology-knowledge Enhanced Multi-instance Prompt Learning for Few-shot Whole Slide Image Classification

要約

病理画像分析用の現在のマルチインスタンス学習アルゴリズムは、多くの場合、効果的なトレーニングのためにかなりの数のスライド画像全体を必要としますが、学習データが限られているシナリオでは次善のパフォーマンスを示します。
臨床現場では、患者のプライバシーへの懸念や希少疾患または新興疾患の蔓延のため、病理スライドへのアクセスが制限されることは避けられません。
少数ショットの弱い教師あり WSI 分類の登場により、限られたスライド データと診断用のスライド レベルのラベルがまばらであるという重大な課題に対処できます。
事前トレーニングされたモデル (\例: CLIP) に基づく迅速な学習は、この設定にとって有望なスキームであると思われます。
ただし、この分野における現在の研究は限られており、既存のアルゴリズムはパッチレベルのプロンプトのみに焦点を当てているか、言語プロンプトに限定されていることがよくあります。
この論文では、病理学の知識で強化されたマルチインスタンス プロンプト学習フレームワークを提案します。つまり、視覚的およびテキストによる事前知識をパッチ レベルとスライド レベルの両方のプロンプトに統合します。
トレーニング プロセスでは、静的プロンプトと学習可能なプロンプトを組み合わせて使用​​し、事前トレーニングされたモデルのアクティブ化を効果的にガイドし、主要な病理パターンの診断をさらに容易にします。
同じ患者データ内のパッチとスライド間の関係をモデル化するために、軽量メッセンジャー (セルフ アテンション) レイヤーとサマリー (アテンション プーリング) レイヤーが導入されています。
さらに、位置合わせに関するコントラストの損失により、パッチとスライドの両方の視覚的プロンプトとテキスト学習可能なプロンプトの間の機能レベルの位置合わせが保証されます。
私たちの方法は、3 つの困難な臨床タスクにおいて優れたパフォーマンスを示し、比較用の少数ショット法を大幅に上回ります。

要約(オリジナル)

Current multi-instance learning algorithms for pathology image analysis often require a substantial number of Whole Slide Images for effective training but exhibit suboptimal performance in scenarios with limited learning data. In clinical settings, restricted access to pathology slides is inevitable due to patient privacy concerns and the prevalence of rare or emerging diseases. The emergence of the Few-shot Weakly Supervised WSI Classification accommodates the significant challenge of the limited slide data and sparse slide-level labels for diagnosis. Prompt learning based on the pre-trained models (\eg, CLIP) appears to be a promising scheme for this setting; however, current research in this area is limited, and existing algorithms often focus solely on patch-level prompts or confine themselves to language prompts. This paper proposes a multi-instance prompt learning framework enhanced with pathology knowledge, \ie, integrating visual and textual prior knowledge into prompts at both patch and slide levels. The training process employs a combination of static and learnable prompts, effectively guiding the activation of pre-trained models and further facilitating the diagnosis of key pathology patterns. Lightweight Messenger (self-attention) and Summary (attention-pooling) layers are introduced to model relationships between patches and slides within the same patient data. Additionally, alignment-wise contrastive losses ensure the feature-level alignment between visual and textual learnable prompts for both patches and slides. Our method demonstrates superior performance in three challenging clinical tasks, significantly outperforming comparative few-shot methods.

arxiv情報

著者 Linhao Qu,Dingkang Yang,Dan Huang,Qinhao Guo,Rongkui Luo,Shaoting Zhang,Xiaosong Wang
発行日 2024-07-15 15:31:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク