BrainMVP: Multi-modal Vision Pre-training for Brain Image Analysis using Multi-parametric MRI

要約

脳異常の正確な診断は、相補的なマルチパラメトリック MRI 画像データを含めることによって大幅に強化されます。
画像モダリティやさまざまな臨床シナリオに迅速に適応できる普遍的な事前トレーニング モデルを開発する大きな可能性があります。
ただし、現在のモデルはユニモーダル画像データに依存することが多く、異なる画像モダリティ間のクロスモーダル相関を無視したり、モダリティ データが欠落している場合に事前トレーニングをスケールアップするのに苦労したりしています。
この論文では、マルチパラメトリック MRI スキャンを使用した脳画像解析のためのマルチモーダル視覚事前トレーニング フレームワークである BrainMVP を提案します。
まず、さまざまなセンターや機器から提供された 8 つの MRI モダリティを含む 16,022 件の脳 MRI スキャン (240 万枚以上の画像) を収集します。
次に、新しい事前トレーニング パラダイムがマルチモーダル MRI データに対して提案され、モダリティの欠落の問題に対処し、マルチモーダル情報融合を達成します。
クロスモーダル再構成は、特徴的な脳画像の埋め込みと効率的なモダリティ融合機能を学習するために研究されています。
モダリティごとのデータ蒸留モジュールは、事前トレーニングと下流アプリケーションの両方の目的で各 MR 画像モダリティの本質表現を抽出するために提案されています。
さらに、研究内のモダリティ間の関連性を強化するために、モダリティを意識した対照学習モジュールを導入します。
下流タスクに関する広範な実験により、医療分野の最先端の事前トレーニング方法と比較して優れたパフォーマンスが実証され、6 つのセグメンテーション ベンチマーク全体でダイス スコアが 0.28% ~ 14.47% 向上し、一貫して精度が 0.65% ~ 18.07 向上しました。
4 つの個別の分類タスクにおける %。

要約(オリジナル)

Accurate diagnosis of brain abnormalities is greatly enhanced by the inclusion of complementary multi-parametric MRI imaging data. There is significant potential to develop a universal pre-training model that can be quickly adapted for image modalities and various clinical scenarios. However, current models often rely on uni-modal image data, neglecting the cross-modal correlations among different image modalities or struggling to scale up pre-training in the presence of missing modality data. In this paper, we propose BrainMVP, a multi-modal vision pre-training framework for brain image analysis using multi-parametric MRI scans. First, we collect 16,022 brain MRI scans (over 2.4 million images), encompassing eight MRI modalities sourced from a diverse range of centers and devices. Then, a novel pre-training paradigm is proposed for the multi-modal MRI data, addressing the issue of missing modalities and achieving multi-modal information fusion. Cross-modal reconstruction is explored to learn distinctive brain image embeddings and efficient modality fusion capabilities. A modality-wise data distillation module is proposed to extract the essence representation of each MR image modality for both the pre-training and downstream application purposes. Furthermore, we introduce a modality-aware contrastive learning module to enhance the cross-modality association within a study. Extensive experiments on downstream tasks demonstrate superior performance compared to state-of-the-art pre-training methods in the medical domain, with Dice Score improvement of 0.28%-14.47% across six segmentation benchmarks and a consistent accuracy improvement of 0.65%-18.07% in four individual classification tasks.

arxiv情報

著者 Shaohao Rui,Lingzhi Chen,Zhenyu Tang,Lilong Wang,Mianxin Liu,Shaoting Zhang,Xiaosong Wang
発行日 2024-10-14 15:12:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク