MsaMIL-Net: An End-to-End Multi-Scale Aware Multiple Instance Learning Network for Efficient Whole Slide Image Classification

要約

バッグベースの複数インスタンス学習(MIL)アプローチは、スライド画像全体(WSI)分類の主流の方法論として浮上しています。
ただし、ほとんどの既存の方法では、セグメント化されたトレーニング戦略が採用されています。これは、最初に事前に訓練された機能抽出器を使用して機能を抽出し、次にMILを介してこれらの機能を集約します。
このセグメント化されたトレーニングアプローチは、機能抽出ネットワークとMILネットワーク間の共同最適化が不十分になり、エンドツーエンドのジョイントの最適化を防ぎ、それによってモデルの全体的なパフォーマンスが制限されます。
さらに、従来の方法は通常、病理学者のマルチスケールの観測特性を無視して、固定サイズのすべてのパッチから特徴を抽出します。
これにより、腫瘍領域が最小限の割合を表している場合(Camelyon16データセットのように)、重要な計算リソース廃棄物をもたらすだけでなく、モデルを最適でないソリューションに導く可能性もあります。
これらの制限に対処するために、このペーパーでは、マルチスケール機能抽出を複数のインスタンス学習と統合するエンドツーエンドのマルチスケールWSI分類フレームワークを提案します。
具体的には、私たちのアプローチには次のものが含まれます。(1)非病原領域からの干渉を減らすためのセマンティック機能フィルタリングモジュール。
(2)さまざまなレベルで病的情報をキャプチャするマルチスケール機能抽出モジュール。
(3)グローバルモデリングと特徴統合のためのマルチスケール融合MILモジュール。
エンドツーエンドのトレーニング戦略を通じて、機能抽出器とMILネットワークの両方を同時に最適化し、それらの間の最大の互換性を確保します。
実験は、3つのクロスセンターデータセット(DigestPath2019、BCNB、およびUBC-OCEAN)で実施されました。
結果は、提案された方法が、精度(ACC)とAUCメトリックの両方の観点から、既存の最先端のアプローチを上回ることを示しています。

要約(オリジナル)

Bag-based Multiple Instance Learning (MIL) approaches have emerged as the mainstream methodology for Whole Slide Image (WSI) classification. However, most existing methods adopt a segmented training strategy, which first extracts features using a pre-trained feature extractor and then aggregates these features through MIL. This segmented training approach leads to insufficient collaborative optimization between the feature extraction network and the MIL network, preventing end-to-end joint optimization and thereby limiting the overall performance of the model. Additionally, conventional methods typically extract features from all patches of fixed size, ignoring the multi-scale observation characteristics of pathologists. This not only results in significant computational resource waste when tumor regions represent a minimal proportion (as in the Camelyon16 dataset) but may also lead the model to suboptimal solutions. To address these limitations, this paper proposes an end-to-end multi-scale WSI classification framework that integrates multi-scale feature extraction with multiple instance learning. Specifically, our approach includes: (1) a semantic feature filtering module to reduce interference from non-lesion areas; (2) a multi-scale feature extraction module to capture pathological information at different levels; and (3) a multi-scale fusion MIL module for global modeling and feature integration. Through an end-to-end training strategy, we simultaneously optimize both the feature extractor and MIL network, ensuring maximum compatibility between them. Experiments were conducted on three cross-center datasets (DigestPath2019, BCNB, and UBC-OCEAN). Results demonstrate that our proposed method outperforms existing state-of-the-art approaches in terms of both accuracy (ACC) and AUC metrics.

arxiv情報

著者 Jiangping Wen,Jinyu Wen,Meie Fang
発行日 2025-03-12 09:27:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク