Benchmarking Pathology Feature Extractors for Whole Slide Image Classification

要約

弱教師付きスライド全体画像分類は、計算病理学における重要なタスクであり、スライドを構成する画像パッチのセットからスライド レベルのラベルを予測することが含まれます。
このタスクを解決するためのモデルの構築には複数の設計上の選択が含まれますが、多くの場合、堅牢な経験的または決定的な理論的根拠が得られずに行われます。
これに対処するために、特徴抽出器の包括的なベンチマークを実行して、次の 3 つの重要な質問に答えます。 1) 汚れの正規化は依然として必要な前処理ステップですか?
2) 下流のスライドレベルの分類にはどの特徴抽出ツールが最適ですか?
3) 倍率は下流のパフォーマンスにどのような影響を与えますか?
私たちの研究は、これまでに公的に利用可能な病理特徴抽出器の最も包括的な評価を構成しており、14 の特徴抽出器、9 つのタスク、5 つのデータセット、3 つのダウンストリーム アーキテクチャ、2 レベルの倍率、およびさまざまな前処理設定にわたる 10,000 回を超えるトレーニングの実行が含まれています。
私たちの発見は既存の仮定に疑問を投げかけます: 1) 潜在空間を分析することにより、染色正規化と画像拡張をスキップしてもパフォーマンスは低下せず、メモリと計算の需要が大幅に削減されることを経験的に観察しました。
2) 相対的なダウンストリーム パフォーマンスを比較するための新しい評価指標を開発し、特徴抽出器の選択がダウンストリーム パフォーマンスにとって最も重要な要素であることを示します。
3) スライドレベルの正確な分類には、低倍率のスライドで十分であることがわかりました。
以前のパッチレベルのベンチマーク研究とは対照的に、私たちのアプローチは、外部検証コホートによる弱い監視下でのスライドレベルのバイオマーカー予測タスクに焦点を当てることにより、臨床的関連性を強調しています。
私たちの発見は、前処理の必要性を最小限に抑え、特徴抽出器の選択に情報を提供することにより、デジタル病理学ワークフローを合理化することに役立ちます。

要約(オリジナル)

Weakly supervised whole slide image classification is a key task in computational pathology, which involves predicting a slide-level label from a set of image patches constituting the slide. Constructing models to solve this task involves multiple design choices, often made without robust empirical or conclusive theoretical justification. To address this, we conduct a comprehensive benchmarking of feature extractors to answer three critical questions: 1) Is stain normalisation still a necessary preprocessing step? 2) Which feature extractors are best for downstream slide-level classification? 3) How does magnification affect downstream performance? Our study constitutes the most comprehensive evaluation of publicly available pathology feature extractors to date, involving more than 10,000 training runs across 14 feature extractors, 9 tasks, 5 datasets, 3 downstream architectures, 2 levels of magnification, and various preprocessing setups. Our findings challenge existing assumptions: 1) We observe empirically, and by analysing the latent space, that skipping stain normalisation and image augmentations does not degrade performance, while significantly reducing memory and computational demands. 2) We develop a novel evaluation metric to compare relative downstream performance, and show that the choice of feature extractor is the most consequential factor for downstream performance. 3) We find that lower-magnification slides are sufficient for accurate slide-level classification. Contrary to previous patch-level benchmarking studies, our approach emphasises clinical relevance by focusing on slide-level biomarker prediction tasks in a weakly supervised setting with external validation cohorts. Our findings stand to streamline digital pathology workflows by minimising preprocessing needs and informing the selection of feature extractors.

arxiv情報

著者 Georg Wölflein,Dyke Ferber,Asier R. Meneghetti,Omar S. M. El Nahhas,Daniel Truhn,Zunamys I. Carrero,David J. Harrison,Ognjen Arandjelović,Jakob Nikolas Kather
発行日 2024-06-21 10:43:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク