Multimodal Masked Autoencoder Pre-training for 3D MRI-Based Brain Tumor Analysis with Missing Modalities

要約

マルチモーダル磁気共鳴画像法(MRI)は、脳腫瘍の治療において臨床医が最初に行う検査であり、手術計画、治療モニタリング、バイオマーカー同定に重要な知見を提供する。大規模なデータセットでの事前学習は、モデルが転送可能な表現を学習し、最小限のラベル付きデータで適応するのに役立つことが示されている。この動作は、アノテーションが乏しいことが多い医用画像において特に価値がある。しかし、このパラダイムをマルチモーダルな医療データに適用すると、課題が生じる。既存のアプローチのほとんどは、事前学習と微調整の両方において、すべての画像モダリティが利用可能であると仮定している。実際には、モダリティの欠落は、撮影の問題、専門家の不在、あるいは小規模な自社データセットにおける特定の実験デザインなどのためにしばしば発生する。その結果、一般的なアプローチでは、希望するモダリティの組み合わせごとに別々のモデルをトレーニングすることになり、このプロセスはリソース集約的で、臨床使用には現実的ではない。そこで我々は、マルチモーダルMRIデータ用に調整されたマスク画像モデリング事前トレーニング戦略であるBM-MAEを導入する。同じ事前訓練されたモデルが、利用可能なモダリティのどのような組み合わせにもシームレスに適応し、モダリティ内およびモダリティ間の情報を捉える豊かな表現を抽出する。これにより、アーキテクチャを変更することなく、モダリティのサブセットに対して微調整を行うことができる。広範な実験により、提案する事前学習戦略は、モダリティのサブセットごとに個別の事前学習を必要とするベースラインよりも優れているか、競争力を維持していることが示される。さらに、欠落したモダリティを迅速かつ効率的に再構成することができ、その実用的な価値を強調している。コードと学習済みモデルはhttps://github.com/Lucas-rbnt/BM-MAE。

要約(オリジナル)

Multimodal magnetic resonance imaging (MRI) constitutes the first line of investigation for clinicians in the care of brain tumors, providing crucial insights for surgery planning, treatment monitoring, and biomarker identification. Pre-training on large datasets have been shown to help models learn transferable representations and adapt with minimal labeled data. This behavior is especially valuable in medical imaging, where annotations are often scarce. However, applying this paradigm to multimodal medical data introduces a challenge: most existing approaches assume that all imaging modalities are available during both pre-training and fine-tuning. In practice, missing modalities often occur due to acquisition issues, specialist unavailability, or specific experimental designs on small in-house datasets. Consequently, a common approach involves training a separate model for each desired modality combination, making the process both resource-intensive and impractical for clinical use. Therefore, we introduce BM-MAE, a masked image modeling pre-training strategy tailored for multimodal MRI data. The same pre-trained model seamlessly adapts to any combination of available modalities, extracting rich representations that capture both intra- and inter-modal information. This allows fine-tuning on any subset of modalities without requiring architectural changes, while still benefiting from a model pre-trained on the full set of modalities. Extensive experiments show that the proposed pre-training strategy outperforms or remains competitive with baselines that require separate pre-training for each modality subset, while substantially surpassing training from scratch on several downstream tasks. Additionally, it can quickly and efficiently reconstruct missing modalities, highlighting its practical value. Code and trained models are available at: https://github.com/Lucas-rbnt/BM-MAE

arxiv情報

著者 Lucas Robinet,Ahmad Berjaoui,Elizabeth Cohen-Jonathan Moyal
発行日 2025-05-02 08:02:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV パーマリンク