Overcoming Data Scarcity in Biomedical Imaging with a Foundational Multi-Task Model

要約

大規模に事前トレーニングされた基礎モデルは、非医療領域全体で大きな成功を収めています。
ただし、これらのモデルのトレーニングには通常、大規模で包括的なデータセットが必要です。これは、生物医学イメージングで一般的な小規模で異質なデータセットとは対照的です。
ここでは、トレーニング タスクの数をメモリ要件から切り離すマルチタスク学習戦略を提案します。
私たちは、分類、セグメンテーション、物体検出などのさまざまなラベリング戦略を使用して、断層撮影、顕微鏡、X 線画像などのマルチタスク データベース上で Universal bioMedical PreTrained モデル (UMedPT) をトレーニングしました。
UMedPT の基本モデルは、ImageNet の事前トレーニングや以前の最先端のモデルを上回りました。
事前トレーニング データベースに関連するタスクでは、微調整を行わずに、元のトレーニング データの 1% のみを使用してパフォーマンスを維持しました。
ドメイン外タスクの場合、元のトレーニング データの 50% 以下が必要です。
外部の独立した検証では、UMedPT を使用して抽出されたイメージング特徴が、中心間伝達性の新しい標準であることが証明されました。

要約(オリジナル)

Foundational models, pretrained on a large scale, have demonstrated substantial success across non-medical domains. However, training these models typically requires large, comprehensive datasets, which contrasts with the smaller and more heterogeneous datasets common in biomedical imaging. Here, we propose a multi-task learning strategy that decouples the number of training tasks from memory requirements. We trained a Universal bioMedical PreTrained model (UMedPT) on a multi-task database including tomographic, microscopic, and X-ray images, with various labelling strategies such as classification, segmentation, and object detection. The UMedPT foundational model outperformed ImageNet pretraining and the previous state-of-the-art models. For tasks related to the pretraining database, it maintained its performance with only 1% of the original training data and without fine-tuning. For out-of-domain tasks it required not more than 50% of the original training data. In an external independent validation imaging features extracted using UMedPT proved to be a new standard for cross-center transferability.

arxiv情報

著者 Raphael Schäfer,Till Nicke,Henning Höfener,Annkristin Lange,Dorit Merhof,Friedrich Feuerhake,Volkmar Schulz,Johannes Lotz,Fabian Kiessling
発行日 2023-11-16 12:20:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク