要約
マルチモーダル磁気共鳴画像(MRI)は、脳腫瘍のケアにおける臨床医の最初の調査ラインを構成し、手術計画、治療監視、およびバイオマーカーの識別に関する重要な洞察を提供します。
大規模なデータセットでの事前トレーニングは、モデルが転送可能な表現を学び、最小限のラベル付きデータで適応するのに役立つことが示されています。
この行動は、注釈がしばしば希少な医療画像で特に価値があります。
ただし、このパラダイムをマルチモーダルの医療データに適用すると、課題が導入されます。ほとんどの既存のアプローチは、すべてのイメージングモダリティがトレーニング前と微調整の両方で利用可能であると仮定します。
実際には、習得の問題、専門家の利用不能、または小さな社内データセットの特定の実験設計により、モダリティの欠落がしばしば発生します。
したがって、一般的なアプローチでは、望ましいモダリティの組み合わせごとに個別のモデルをトレーニングし、リソース集約型と臨床使用のためにプロセスの両方にすることが含まれます。
したがって、マルチモーダルMRIデータに合わせて調整されたトレーニング前戦略をモデリングするマスクされた画像モデリングであるBM-MAEを紹介します。
同じ事前に訓練されたモデルは、利用可能なモダリティの任意の組み合わせにシームレスに適応し、モーダル間情報とインター間情報の両方をキャプチャする豊富な表現を抽出します。
これにより、構造の変更を必要とせずにモダリティのサブセットを微調整できますが、モダリティの完全なセットで事前に訓練されたモデルの恩恵を受けます。
広範な実験では、提案されたトレーニング前の戦略が、各モダリティサブセットの個別のトレーニングを必要とするベースラインよりも優れているか、競争力があり、いくつかのダウンストリームタスクでゼロからトレーニングをゼロから上回ることが示されています。
さらに、不足しているモダリティを迅速かつ効率的に再構築することができ、その実用的な価値を強調することができます。
コードモデルと訓練されたモデルは、https://github.com/lucas-rbnt/bmmaeで入手できます
要約(オリジナル)
Multimodal magnetic resonance imaging (MRI) constitutes the first line of investigation for clinicians in the care of brain tumors, providing crucial insights for surgery planning, treatment monitoring, and biomarker identification. Pre-training on large datasets have been shown to help models learn transferable representations and adapt with minimal labeled data. This behavior is especially valuable in medical imaging, where annotations are often scarce. However, applying this paradigm to multimodal medical data introduces a challenge: most existing approaches assume that all imaging modalities are available during both pre-training and fine-tuning. In practice, missing modalities often occur due to acquisition issues, specialist unavailability, or specific experimental designs on small in-house datasets. Consequently, a common approach involves training a separate model for each desired modality combination, making the process both resource-intensive and impractical for clinical use. Therefore, we introduce BM-MAE, a masked image modeling pre-training strategy tailored for multimodal MRI data. The same pre-trained model seamlessly adapts to any combination of available modalities, extracting rich representations that capture both intra- and inter-modal information. This allows fine-tuning on any subset of modalities without requiring architectural changes, while still benefiting from a model pre-trained on the full set of modalities. Extensive experiments show that the proposed pre-training strategy outperforms or remains competitive with baselines that require separate pre-training for each modality subset, while substantially surpassing training from scratch on several downstream tasks. Additionally, it can quickly and efficiently reconstruct missing modalities, highlighting its practical value. Code and trained models are available at: https://github.com/Lucas-rbnt/bmmae
arxiv情報
著者 | Lucas Robinet,Ahmad Berjaoui,Elizabeth Cohen-Jonathan Moyal |
発行日 | 2025-05-01 14:51:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google