Generalizable Whole Slide Image Classification with Fine-Grained Visual-Semantic Interaction

要約

Whole Slide Image (WSI) 分類は、多くの場合、Multiple Instance Learning (MIL) 問題として定式化されます。
最近、視覚言語モデル (VLM) が WSI 分類において顕著なパフォーマンスを実証しました。
しかし、既存の方法は、視覚表現の監視に粗粒な病原性記述を利用しており、病原性画像の複雑な視覚的外観を捕捉するには不十分であり、さまざまな下流タスクにおけるモデルの一般化性を妨げています。
さらに、高解像度の WSI を処理すると、計算コストが高くなる可能性があります。
この論文では、WSI分類のための新しい「ファイングレイン・ビジュアル・セマンティック・インタラクション」(FiVE)フレームワークを提案します。
これは、局所的な視覚パターンと詳細な病理学的セマンティクスの間の相互作用を活用することにより、モデルの一般化可能性を高めるように設計されています。
具体的には、綿密に設計されたクエリを使用して、まず大規模な言語モデルを利用して、標準化されていないさまざまな生のレポートから詳細な病理学的説明を抽出します。
出力された説明は、トレーニングに使用されるきめの細かいラベルに再構築されます。
タスク固有のファイングレイン セマンティクス (TFS) モジュールを導入することで、プロンプトが WSI 内の重要な視覚情報をキャプチャできるようになり、表現学習が強化され、汎化機能が大幅に強化されます。
さらに、病理学的な視覚パターンが組織スライス全体に重複して分布していることを考慮して、トレーニング中に視覚インスタンスのサブセットをサンプリングします。
私たちの方法は堅牢な一般化可能性と強力な転移可能性を実証しており、数回のショット実験で少なくとも 9.19% 高い精度で TCGA 肺がんデータセットの対応する方法を圧倒的に上回っています。

要約(オリジナル)

Whole Slide Image (WSI) classification is often formulated as a Multiple Instance Learning (MIL) problem. Recently, Vision-Language Models (VLMs) have demonstrated remarkable performance in WSI classification. However, existing methods leverage coarse-grained pathogenetic descriptions for visual representation supervision, which are insufficient to capture the complex visual appearance of pathogenetic images, hindering the generalizability of models on diverse downstream tasks. Additionally, processing high-resolution WSIs can be computationally expensive. In this paper, we propose a novel ‘Fine-grained Visual-Semantic Interaction’ (FiVE) framework for WSI classification. It is designed to enhance the model’s generalizability by leveraging the interplay between localized visual patterns and fine-grained pathological semantics. Specifically, with meticulously designed queries, we start by utilizing a large language model to extract fine-grained pathological descriptions from various non-standardized raw reports. The output descriptions are then reconstructed into fine-grained labels used for training. By introducing a Task-specific Fine-grained Semantics (TFS) module, we enable prompts to capture crucial visual information in WSIs, which enhances representation learning and augments generalization capabilities significantly. Furthermore, given that pathological visual patterns are redundantly distributed across tissue slices, we sample a subset of visual instances during training. Our method demonstrates robust generalizability and strong transferability, dominantly outperforming the counterparts on the TCGA Lung Cancer dataset with at least 9.19% higher accuracy in few-shot experiments.

arxiv情報

著者 Hao Li,Ying Chen,Yifei Chen,Wenxian Yang,Bowen Ding,Yuchen Han,Liansheng Wang,Rongshan Yu
発行日 2024-02-29 16:29:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク