PRISM: A Multi-Modal Generative Foundation Model for Slide-Level Histopathology

要約

計算病理学の基礎モデルは、精密医療のための新しい臨床意思決定支援システムとモデルの開発を可能にすることを約束します。
ただし、1 つまたは複数のスライド画像全体のレベルで定義されるほとんどの臨床分析と、スライド画像全体に含まれる数千の画像タイルを個別に処理するこれまでの基礎モデルとの間には不一致があります。
複数のスライド画像全体の多数のタイルにわたる情報を集約するようにネットワークをトレーニングする必要があるため、これらのモデルの影響は制限されます。
この研究では、Virchow タイル埋め込みに基づいて構築され、事前トレーニングに臨床レポート テキストを活用する、H&E 染色組織病理学用のスライド レベルの基礎モデル PRISM を紹介します。
PRISM は、タイルの埋め込みを使用して、臨床レポートを生成する機能を備えたスライド レベルの埋め込みを生成し、その結果、いくつかの使用モードが得られます。
PRISM は、テキスト プロンプトを使用して、ゼロショットがん検出と教師ありアグリゲーター モデルに匹敵する、またはそれを超えるサブタイピングのパフォーマンスを実現します。
線形分類器でスライドの埋め込みを使用することで、PRISM は教師ありアグリゲーター モデルを超えます。
さらに、PRISM スライド エンコーダーの微調整により、バイオマーカー予測のラベル効率の高いトレーニングが得られることを実証します。このタスクは通常、トレーニング データの利用可能性が低いことが課題です。
PRISM で初期化され、わずか 10% のトレーニング データでトレーニングされたアグリゲーターは、すべてのデータを使用する教師ありベースラインよりも優れたパフォーマンスを発揮できます。

要約(オリジナル)

Foundation models in computational pathology promise to unlock the development of new clinical decision support systems and models for precision medicine. However, there is a mismatch between most clinical analysis, which is defined at the level of one or more whole slide images, and foundation models to date, which process the thousands of image tiles contained in a whole slide image separately. The requirement to train a network to aggregate information across a large number of tiles in multiple whole slide images limits these models’ impact. In this work, we present a slide-level foundation model for H&E-stained histopathology, PRISM, that builds on Virchow tile embeddings and leverages clinical report text for pre-training. Using the tile embeddings, PRISM produces slide-level embeddings with the ability to generate clinical reports, resulting in several modes of use. Using text prompts, PRISM achieves zero-shot cancer detection and sub-typing performance approaching and surpassing that of a supervised aggregator model. Using the slide embeddings with linear classifiers, PRISM surpasses supervised aggregator models. Furthermore, we demonstrate that fine-tuning of the PRISM slide encoder yields label-efficient training for biomarker prediction, a task that typically suffers from low availability of training data; an aggregator initialized with PRISM and trained on as little as 10% of the training data can outperform a supervised baseline that uses all of the data.

arxiv情報

著者 George Shaikovski,Adam Casson,Kristen Severson,Eric Zimmermann,Yi Kan Wang,Jeremy D. Kunz,Juan A. Retamero,Gerard Oakley,David Klimstra,Christopher Kanan,Matthew Hanna,Michal Zelechowski,Julian Viret,Neil Tenenholtz,James Hall,Nicolo Fusi,Razik Yousfi,Peter Hamilton,William A. Moye,Eugene Vorontsov,Siqi Liu,Thomas J. Fuchs
発行日 2024-05-16 16:59:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.IV パーマリンク