MultiViT2: A Data-augmented Multimodal Neuroimaging Prediction Framework via Latent Diffusion Model

要約

マルチモーダルメディカルイメージングは​​、構造的および機能的なニューロイメージングなどのさまざまなデータ型を統合して、深い学習予測を強化し、結果を改善する補完的な洞察を提供します。
この研究では、構造的および機能的なニューロイメージングデータの両方に基づいたニューロイメージング予測フレームワークに焦点を当てています。
次世代予測モデル\ textBf {multivit2}を提案します。これは、前提条件の代表的な学習ベースモデルと予測出力のためのビジョントランスバックボーンを組み合わせています。
さらに、増強されたニューロイメージングサンプルを生成することにより入力データを濃縮する潜在的な拡散モデルに基づいてデータ増強モジュールを開発し、それにより、過剰適合と改善された一般化可能性を削減することで予測パフォーマンスを向上させました。
MultiVIT2は、統合失調症分類の精度における第1世代モデルを大幅に上回り、強力なスケーラビリティと携帯性を実証することを示しています。

要約(オリジナル)

Multimodal medical imaging integrates diverse data types, such as structural and functional neuroimaging, to provide complementary insights that enhance deep learning predictions and improve outcomes. This study focuses on a neuroimaging prediction framework based on both structural and functional neuroimaging data. We propose a next-generation prediction model, \textbf{MultiViT2}, which combines a pretrained representative learning base model with a vision transformer backbone for prediction output. Additionally, we developed a data augmentation module based on the latent diffusion model that enriches input data by generating augmented neuroimaging samples, thereby enhancing predictive performance through reduced overfitting and improved generalizability. We show that MultiViT2 significantly outperforms the first-generation model in schizophrenia classification accuracy and demonstrates strong scalability and portability.

arxiv情報

著者 Bi Yuda,Jia Sihan,Gao Yutong,Abrol Anees,Fu Zening,Calhoun Vince
発行日 2025-06-16 16:25:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク