DeepSMILE: Contrastive self-supervised pre-training benefits MSI and HRD classification directly from H&E whole-slide images in colorectal and breast cancer

要約

我々は、自己教師付き事前トレーニングと異質性を認識したピクセルレベルまたはタイルレベルの注釈を必要としない、ヘマトキシリン・エオシン(H&E)染色腫瘍組織の全スライド画像(WSI)を分析するための深層学習ベースの弱いラベル学習方法を提案します。
ディープ複数インスタンス学習 (DeepSMILE)。
DeepSMILE を相同組換え欠損 (HRD) とマイクロサテライト不安定性 (MSI) の予測タスクに適用します。
対照的な自己教師あり学習を利用して、がん組織の組織病理学タイル上で特徴抽出器を事前トレーニングします。
さらに、ばらつきを意識した深層マルチインスタンス学習を使用して、腫瘍の不均一性をモデル化しながらタイル特徴集約関数を学習します。
腫瘍アノテーションが付けられ、色が正規化された TCGA-CRC サブセット (n=360 患者) における MSI 予測の場合、対照的自己教師あり学習により、タイル監視ベースラインが 0.77 AUROC から 0.87 AUROC に改善され、これは私たちが提案した DeepSMILE 法と同等です。
手動アノテーションなしの TCGA-BC (n=1041 患者) では、DeepSMILE は、自己監視型または ImageNet 事前トレーニング済み特徴抽出器のいずれかを使用したタイル監視と比較して、HRD 分類パフォーマンスを 0.77 AUROC から 0.81 AUROC に向上させました。
私たちが提案する手法は、両方のデータセットのラベル付きデータの 40% のみを使用してベースラインのパフォーマンスに達します。
これらの改善は、標準的な自己教師あり学習手法を病理組織領域での複数インスタンス学習と組み合わせて使用​​して、より少ないラベル付きデータでゲノムラベル分類のパフォーマンスを向上できることを示唆しています。

要約(オリジナル)

We propose a Deep learning-based weak label learning method for analyzing whole slide images (WSIs) of Hematoxylin and Eosin (H&E) stained tumor tissue not requiring pixel-level or tile-level annotations using Self-supervised pre-training and heterogeneity-aware deep Multiple Instance LEarning (DeepSMILE). We apply DeepSMILE to the task of Homologous recombination deficiency (HRD) and microsatellite instability (MSI) prediction. We utilize contrastive self-supervised learning to pre-train a feature extractor on histopathology tiles of cancer tissue. Additionally, we use variability-aware deep multiple instance learning to learn the tile feature aggregation function while modeling tumor heterogeneity. For MSI prediction in a tumor-annotated and color normalized subset of TCGA-CRC (n=360 patients), contrastive self-supervised learning improves the tile supervision baseline from 0.77 to 0.87 AUROC, on par with our proposed DeepSMILE method. On TCGA-BC (n=1041 patients) without any manual annotations, DeepSMILE improves HRD classification performance from 0.77 to 0.81 AUROC compared to tile supervision with either a self-supervised or ImageNet pre-trained feature extractor. Our proposed methods reach the baseline performance using only 40% of the labeled data on both datasets. These improvements suggest we can use standard self-supervised learning techniques combined with multiple instance learning in the histopathology domain to improve genomic label classification performance with fewer labeled data.

arxiv情報

著者 Yoni Schirris,Efstratios Gavves,Iris Nederlof,Hugo Mark Horlings,Jonas Teuwen
発行日 2023-06-28 13:52:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク