BioVFM-21M: Benchmarking and Scaling Self-Supervised Vision Foundation Models for Biomedical Image Analysis

要約

モデルとデータサイズのスケーリングにより、幅広いタスクよりも印象的なパフォーマンスの改善が実証されています。
汎用タスクのスケーリング行動に関する広範な研究にもかかわらず、医療画像は自然データと大きな違いを示します。
医療領域でのスケーリング行動の広範な理解がないため、Medical Vision Foundationモデルを大規模に開発する際の重要な要因が不明のままです。
このホワイトペーパーでは、モデルサイズ、トレーニングアルゴリズム、データサイズ、および自己監視学習によるスケーラブルなMedical Vision Foundationモデルの開発におけるイメージングモダリティ全体のスケーリング動作を調査しました。
スケーラブルな事前トレーニングをサポートするために、幅広い生物医学的画像モダリティと解剖学を含む大規模な生物医学画像データセットであるBioVFM-21Mを導入します。
スケールアップは利点を提供するが、タスクによって異なることを観察しました。
追加の分析により、スケーリングの利点と相関するいくつかの要因が明らかになります。
最後に、2100万人の生物医学画像を前提とした大規模なMedical Vision FoundationモデルであるBioVFMを提案します。これは、12の医療ベンチマークで以前の最先端の基礎モデルを上回ります。
私たちの結果は、スケールアップがより良いパフォーマンスを追求するために有益である一方で、タスクの特性、データの多様性、事前供与方法、および計算効率がスケーラブルな医療基盤モデルを開発するための重要な考慮事項のままであることを強調しています。

要約(オリジナル)

Scaling up model and data size have demonstrated impressive performance improvement over a wide range of tasks. Despite extensive studies on scaling behaviors for general-purpose tasks, medical images exhibit substantial differences from natural data. It remains unclear the key factors in developing medical vision foundation models at scale due to the absence of an extensive understanding of scaling behavior in the medical domain. In this paper, we explored the scaling behavior across model sizes, training algorithms, data sizes, and imaging modalities in developing scalable medical vision foundation models by self-supervised learning. To support scalable pretraining, we introduce BioVFM-21M, a large-scale biomedical image dataset encompassing a wide range of biomedical image modalities and anatomies. We observed that scaling up does provide benefits but varies across tasks. Additional analysis reveals several factors correlated with scaling benefits. Finally, we propose BioVFM, a large-scale medical vision foundation model pretrained on 21 million biomedical images, which outperforms the previous state-of-the-art foundation models across 12 medical benchmarks. Our results highlight that while scaling up is beneficial for pursuing better performance, task characteristics, data diversity, pretraining methods, and computational efficiency remain critical considerations for developing scalable medical foundation models.

arxiv情報

著者	Jiarun Liu,Hong-Yu Zhou,Weijian Huang,Hao Yang,Dongning Song,Tao Tan,Yong Liang,Shanshan Wang
発行日	2025-05-14 12:25:41+00:00
arxivサイト	arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

BioVFM-21M: Benchmarking and Scaling Self-Supervised Vision Foundation Models for Biomedical Image Analysis

要約

要約(オリジナル)

arxiv情報

提供元, 利用サービス

最近の投稿

最近のコメント

アーカイブ

カテゴリー