Rethinking Pre-trained Feature Extractor Selection in Multiple Instance Learning for Whole Slide Image Classification

要約

複数インスタンス学習(Multiple instance learning: MIL)は、パッチラベルの注釈を必要とせず、ギガピクセルの全スライド画像(Whole Slide Image: WSI)を分類するための好ましい手法となっている。現在のMIL研究の焦点は、埋め込みベースのMILアプローチであり、事前に訓練された特徴抽出器を用いてパッチから特徴ベクトルを抽出する。これらの特徴ベクトルはスライドレベル予測のためにMILアグリゲータに供給される。ImageNet-1Kで事前に訓練された、最も一般的に使用されるResNet50教師ありモデルの強化に関する先行研究の提案にもかかわらず、WSI性能を最大化するための最適な特徴抽出器の選択に関する明確なガイダンスは依然として不足している。本研究では、事前学習データセット、バックボーンモデル、事前学習方法の3つの側面からMIL特徴抽出器を検討することで、このギャップに対処することを目的とする。つの公開WSIデータセット(TCGA-NSCLCとCamelyon16)に対して、4つのSOTA MILモデルを用いて広範な実験を行った。主な結果は以下の通りである:1) CNNとTransformerの両方のバックボーンにおいて、事前学習データセットがより大きく、より多様であるほど、性能が著しく向上する。2)「現代的で深い」バックボーンは「標準的な」バックボーン(ResNetとViT)を大きく上回り、Transformerベースのバックボーンでは性能向上がより保証される。3) Self-supervised learning (SSL)手法の選択は非常に重要であり、Transformer (ViT)バックボーンに適用した場合に最も大きな効果が観察された。この研究結果は、より効果的な病理学的基礎モデルの設計など、実用的な意味を持つ。我々のコードは、https://anonymous.4open.science/r/MIL-Feature-Extractor-Selection。

要約(オリジナル)

Multiple instance learning (MIL) has become a preferred method for classifying gigapixel whole slide images (WSIs), without requiring patch label annotation. The focus of the current MIL research stream is on the embedding-based MIL approach, which involves extracting feature vectors from patches using a pre-trained feature extractor. These feature vectors are then fed into an MIL aggregator for slide-level prediction. Despite prior research suggestions on enhancing the most commonly used ResNet50 supervised model pre-trained on ImageNet-1K, there remains a lack of clear guidance on selecting the optimal feature extractor to maximize WSI performance. This study aims at addressing this gap by examining MIL feature extractors across three dimensions: pre-training dataset, backbone model, and pre-training method. Extensive experiments were carried out on the two public WSI datasets (TCGA-NSCLC and Camelyon16) using four SOTA MIL models. The main findings indicate the following: 1) Performance significantly improves with larger and more varied pre-training datasets in both CNN and Transformer backbones. 2) `Modern and deeper’ backbones greatly outperform `standard’ backbones (ResNet and ViT), with performance improvements more guaranteed in Transformer-based backbones. 3) The choice of self-supervised learning (SSL) method is crucial, with the most significant benefits observed when applied to the Transformer (ViT) backbone. The study findings have practical implications, including designing more effective pathological foundation models. Our code is available at: https://anonymous.4open.science/r/MIL-Feature-Extractor-Selection

arxiv情報

著者 Bryan Wong,Mun Yong Yi
発行日 2024-08-02 10:34:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク