Low-resource finetuning of foundation models beats state-of-the-art in histopathology

要約

計算病理学においてスライド全体画像のスケールを大きく扱うために、ほとんどのアプローチは、まず画像を小さなパッチに分割し、これらのパッチから特徴を抽出し、最後に弱い教師あり学習で特徴ベクトルを集約する。このワークフローの性能は、抽出された特徴の質に強く依存する。近年、コンピュータビジョンの基礎モデルは、教師あり学習や自己教師あり学習によって膨大な量のデータを活用することで、様々なタスクの特徴品質と汎化性が向上することを示した。本研究では、病理組織データの特徴抽出器として、最も一般的なビジョン基礎モデルをベンチマークする。スライドレベル分類とパッチレベル分類の2つの設定でモデルを評価する。基礎モデルは強力なベースラインであることを示す。我々の実験は、データセットに応じて、たった2時間から3日間、単一のGPU上で基礎モデルを微調整することで、計算病理学のための最先端の特徴抽出器と同等か、それを上回ることができることを示している。これらの発見は、わずかなリソースでも、特定の下流タスクとデータセットに合わせて特徴抽出器を微調整できることを示唆している。これは、大量のリソースとデータセットを持つ少数の研究機関のみが特徴抽出器をトレーニングできるという現状からの大きな転換である。私たちは、学習と評価に使用したすべてのコードと、微調整したモデルを公開しています。

要約(オリジナル)

To handle the large scale of whole slide images in computational pathology, most approaches first tessellate the images into smaller patches, extract features from these patches, and finally aggregate the feature vectors with weakly-supervised learning. The performance of this workflow strongly depends on the quality of the extracted features. Recently, foundation models in computer vision showed that leveraging huge amounts of data through supervised or self-supervised learning improves feature quality and generalizability for a variety of tasks. In this study, we benchmark the most popular vision foundation models as feature extractors for histopathology data. We evaluate the models in two settings: slide-level classification and patch-level classification. We show that foundation models are a strong baseline. Our experiments demonstrate that by finetuning a foundation model on a single GPU for only two hours or three days depending on the dataset, we can match or outperform state-of-the-art feature extractors for computational pathology. These findings imply that even with little resources one can finetune a feature extractor tailored towards a specific downstream task and dataset. This is a considerable shift from the current state, where only few institutions with large amounts of resources and datasets are able to train a feature extractor. We publish all code used for training and evaluation as well as the finetuned models.

arxiv情報

著者 Benedikt Roth,Valentin Koch,Sophia J. Wagner,Julia A. Schnabel,Carsten Marr,Tingying Peng
発行日 2024-01-09 18:46:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク