Virchow 2: Scaling Self-Supervised Mixed Magnification Models in Pathology

要約

計算病理学アプリケーションのための基礎モデルが急速に開発されている。しかし、データ規模や多様性、モデルサイズ、学習アルゴリズムなど、どの要素が下流の性能にとって最も重要であるかは未解決のままである。本研究では、データとモデルサイズの両方をスケーリングし、両次元で先行研究を凌駕する結果を発表し、2つの新しいモデルを紹介する:Virchow 2は632Mパラメータの視覚変換器であり、Virchow 2Gは1.85Bパラメータの視覚変換器である。このスケールをサポートするために、我々はDINOv2学習アルゴリズムへのドメインインスパイアされた適応を提案する。我々は、12個のタイルレベルのタスクにおいて、トップクラスの性能を持つ競合モデルと比較して、最先端の性能を達成した。我々の結果は、データの多様性とドメインに特化したトレーニングが、パラメータ数のみをスケールさせたモデルを凌駕する可能性があることを示唆しているが、平均的には、ドメイン・テーラリング、データ・スケール、モデル・スケールによって性能が向上する。

要約(オリジナル)

Foundation models are rapidly being developed for computational pathology applications. However, it remains an open question which factors are most important for downstream performance with data scale and diversity, model size, and training algorithm all playing a role. In this work, we present the result of scaling both data and model size, surpassing previous studies in both dimensions, and introduce two new models: Virchow 2, a 632M parameter vision transformer, and Virchow 2G, a 1.85B parameter vision transformer, each trained with 3.1M histopathology whole slide images. To support this scale, we propose domain-inspired adaptations to the DINOv2 training algorithm, which is quickly becoming the default method in self-supervised learning for computational pathology. We achieve state of the art performance on twelve tile-level tasks, as compared to the top performing competing models. Our results suggest that data diversity and domain-specific training can outperform models that only scale in the number of parameters, but, on average, performance benefits from domain-tailoring, data scale, and model scale.

arxiv情報

著者 Eric Zimmermann,Eugene Vorontsov,Julian Viret,Adam Casson,Michal Zelechowski,George Shaikovski,Neil Tenenholtz,James Hall,Thomas Fuchs,Nicolo Fusi,Siqi Liu,Kristen Severson
発行日 2024-08-01 17:35:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク