Training state-of-the-art pathology foundation models with orders of magnitude less data

要約

計算病理学の分野では、最近、現代ビジョンファンデーションモデル(FMS)の開発によって駆動される急速な進歩が見られました。
最近の研究では、トレーニングデータセットとモデルサイズを増やし、ドメイン固有の画像処理手法を統合すると、下流タスクでのモデルのパフォーマンスが大幅に向上することが示されています。
これらの洞察に基づいて、私たちの研究には、病理FMSのトレーニングを最適化するために、文献から標準的なDINOV2フレームワークに最近のいくつかの変更が組み込まれています。
また、埋め込みにエンコードされた情報をさらに強化するために、高解像度画像の微調整モデルのトレーニング後の手順を適用します。
ダウンストリームタスクで同等または優れたパフォーマンスを実証しながら、他の最先端のFMSをトレーニングするために使用したWSIよりも最大2桁少ないWSIで訓練された3つの新しい病理学FMSを提示します。
TCGAのみで訓練されたモデル(12K WSI)でさえ、ほとんどの既存のFMSを上回り、平均してこれまでに公開された2番目に良いFMであるVirchow2と一致します。
これは、膨大なデータ収集を最大限に活用するために病理学FMSをトレーニングするために使用されるモデルとアルゴリズムをさらに改善するための重要な可能性がまだ残っていることを示唆しています。

要約(オリジナル)

The field of computational pathology has recently seen rapid advances driven by the development of modern vision foundation models (FMs), typically trained on vast collections of pathology images. Recent studies demonstrate that increasing the training data set and model size and integrating domain-specific image processing techniques can significantly enhance the model’s performance on downstream tasks. Building on these insights, our work incorporates several recent modifications to the standard DINOv2 framework from the literature to optimize the training of pathology FMs. We also apply a post-training procedure for fine-tuning models on higher-resolution images to further enrich the information encoded in the embeddings. We present three novel pathology FMs trained on up to two orders of magnitude fewer WSIs than those used to train other state-of-the-art FMs while demonstrating a comparable or superior performance on downstream tasks. Even the model trained on TCGA alone (12k WSIs) outperforms most existing FMs and, on average, matches Virchow2, the second-best FM published to date. This suggests that there still remains a significant potential for further improving the models and algorithms used to train pathology FMs to take full advantage of the vast data collections.

arxiv情報

著者 Mikhail Karasikov,Joost van Doorn,Nicolas Känzig,Melis Erdal Cesur,Hugo Mark Horlings,Robert Berke,Fei Tang,Sebastian Otálora
発行日 2025-04-07 15:38:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク