Reducing self-supervised learning complexity improves weakly-supervised classification performance in computational pathology

要約

深層学習モデルは、日常的に利用可能な組織学データから臨床的に実用的な洞察を抽出するためにうまく利用されています。
一般に、これらのモデルには臨床医によるアノテーションが必要ですが、そのアノテーションの作成には希少性とコストがかかります。
自己教師あり学習 (SSL) 手法の出現により、この障壁が取り除かれ、アノテーションのないデータに対する大規模な分析が可能になりました。
しかし、最近の SSL アプローチでは、ますます拡張的なモデル アーキテクチャと大規模なデータセットが適用されるため、データ量、ハードウェアの前提条件、全体的な費用が急速に増大し、これらのリソースへのアクセスが少数の機関に限定されています。
したがって、私たちは、コンシューマーグレードのハードウェアを使用した分類パフォーマンスに関連して、計算病理学におけるコントラスト SSL の複雑さを調査しました。
具体的には、データ量、アーキテクチャ、およびアルゴリズムの適応が下流の分類タスクに及ぼす影響を分析し、計算リソースへの影響を強調しました。
私たちは、大規模な公的患者コホートで乳がん基礎モデルをトレーニングし、2 つの外部の公的患者コホートで弱い教師付きの方法でさまざまな下流分類タスクでそれらを検証しました。
私たちの実験では、SSL トレーニング時間を 90% 削減しながら、ダウンストリームの分類パフォーマンスを向上できることが実証されました。
要約すると、リソースが豊富ではない環境における計算病理学における SSL の利用を可能にする一連の適応を提案します。

要約(オリジナル)

Deep Learning models have been successfully utilized to extract clinically actionable insights from routinely available histology data. Generally, these models require annotations performed by clinicians, which are scarce and costly to generate. The emergence of self-supervised learning (SSL) methods remove this barrier, allowing for large-scale analyses on non-annotated data. However, recent SSL approaches apply increasingly expansive model architectures and larger datasets, causing the rapid escalation of data volumes, hardware prerequisites, and overall expenses, limiting access to these resources to few institutions. Therefore, we investigated the complexity of contrastive SSL in computational pathology in relation to classification performance with the utilization of consumer-grade hardware. Specifically, we analyzed the effects of adaptations in data volume, architecture, and algorithms on downstream clas- sification tasks, emphasizing their impact on computational resources. We trained breast cancer foundation models on a large public patient cohort and validated them on various downstream classification tasks in a weakly supervised manner on two external public patient cohorts. Our experiments demonstrate that we can improve downstream classification performance whilst reducing SSL training duration by 90%. In summary, we propose a set of adaptations which enable the utilization of SSL in computational pathology in non-resource abundant environments.

arxiv情報

著者 Tim Lenz,Omar S. M. El Nahhas,Marta Ligero,Jakob Nikolas Kather
発行日 2024-03-07 14:56:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク