Virchow: A Million-Slide Digital Pathology Foundation Model

要約

計算病理学では、人工知能を使用して、スライド画像全体の分析を通じて精密医療と意思決定支援システムを実現します。
がんの診断と治療に革命をもたらす可能性があります。
ただし、この目的に対する大きな課題は、多くの特定の計算病理学タスクでは、開発するにはデータ量が不十分であることです。
この課題に対処するために、私たちは計算病理学のための 6 億 3,200 万パラメータのディープ ニューラル ネットワーク基盤モデルである Virchow を作成しました。
自己教師あり学習を使用して、Virchow は、さまざまな組織グループからの 150 万枚のヘマトキシリンおよびエオシン染色された全スライド画像でトレーニングされます。これは、以前の研究よりも桁違いに多くのデータです。
タイルレベルの汎がん検出とサブタイピング、スライドレベルのバイオマーカー予測などの下流タスクで評価した場合、Virchow は、事前トレーニング データと同じ母集団から抽出された内部データセットと外部公開データセットの両方で最先端のシステムを上回りました。
データセット。
Virchow は、パン癌タイル分類で 93% のバランスのとれた精度を達成し、結腸マイクロサテライト不安定性状態予測で 0.983、乳房 CDH1 状態予測で 0.967 の AUC を達成しました。
パフォーマンスの向上は、大規模な病理画像データセットでの事前トレーニングの重要性を強調しており、さらに大規模なデータセットでの事前トレーニングによって、薬剤転帰予測など、トレーニング データの量が限られている多くの影響の大きいアプリケーションのパフォーマンスを向上し続ける可能性があることを示唆しています。

要約(オリジナル)

Computational pathology uses artificial intelligence to enable precision medicine and decision support systems through the analysis of whole slide images. It has the potential to revolutionize the diagnosis and treatment of cancer. However, a major challenge to this objective is that for many specific computational pathology tasks the amount of data is inadequate for development. To address this challenge, we created Virchow, a 632 million parameter deep neural network foundation model for computational pathology. Using self-supervised learning, Virchow is trained on 1.5 million hematoxylin and eosin stained whole slide images from diverse tissue groups, which is orders of magnitude more data than previous works. When evaluated on downstream tasks including tile-level pan-cancer detection and subtyping and slide-level biomarker prediction, Virchow outperforms state-of-the-art systems both on internal datasets drawn from the same population as the pretraining data as well as external public datasets. Virchow achieves 93% balanced accuracy for pancancer tile classification, and AUCs of 0.983 for colon microsatellite instability status prediction and 0.967 for breast CDH1 status prediction. The gains in performance highlight the importance of pretraining on massive pathology image datasets, suggesting pretraining on even larger datasets could continue improving performance for many high-impact applications where limited amounts of training data are available, such as drug outcome prediction.

arxiv情報

著者 Eugene Vorontsov,Alican Bozkurt,Adam Casson,George Shaikovski,Michal Zelechowski,Siqi Liu,Philippe Mathieu,Alexander van Eck,Donghun Lee,Julian Viret,Eric Robert,Yi Kan Wang,Jeremy D. Kun,Matthew C. H. Le,Jan Bernhard,Ran A. Godrich,Gerard Oakley,Ewan Millar,Matthew Hanna,Juan Retamero,William A. Moye,Razik Yousfi,Christopher Kanan,David Klimstra,Brandon Rothrock,Thomas J. Fuchs
発行日 2023-09-14 15:09:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.IV, q-bio.TO パーマリンク