CMViM: Contrastive Masked Vim Autoencoder for 3D Multi-modal Representation Learning for AD classification

要約

アルツハイマー病 (AD) は、認知機能と機能の低下を引き起こす不治の神経変性疾患です。
治療法がないことを考えると、迅速かつ正確な AD 診断が不可欠であり、その複雑なプロセスは複数の要因とマルチモーダルなデータに依存します。
マルチモーダル表現学習を医療データセットに統合する取り組みは成功を収めてきましたが、3D 医療画像にはあまり注目されていません。
この論文では、3D マルチモーダル データに合わせた最初の効率的な表現学習手法である Contrastive Masked Vim Autoencoder (CMViM) を提案します。
私たちが提案するフレームワークは、マスクされた Vim オートエンコーダー上に構築されており、3D 医療画像に含まれる統合されたマルチモーダル表現と長い依存関係を学習します。
また、同じモダリティ内の識別特徴をモデル化するためのマルチモーダル Vim エンコーダの機能を強化するためのモーダル内対比学習モジュールと、モダリティ間の不整合な表現を軽減するためのモーダル間対比学習モジュールも導入します。
私たちのフレームワークは 2 つの主要なステップで構成されています。 1) Vision Mamba (Vim) をマスク オートエンコーダーに組み込んで、3D マスクされたマルチモーダル データを効率的に再構築します。
2) イントラモーダルとインターモーダルの両方の側面から、マルチモーダル表現を対照的な学習メカニズムと調整します。
私たちのフレームワークは事前にトレーニングおよび検証された ADNI2 データセットであり、AD 分類の下流タスクで検証されています。
提案された CMViM は、他の最先端の方法と比較して、AUC パフォーマンスが 2.7% 向上しました。

要約(オリジナル)

Alzheimer’s disease (AD) is an incurable neurodegenerative condition leading to cognitive and functional deterioration. Given the lack of a cure, prompt and precise AD diagnosis is vital, a complex process dependent on multiple factors and multi-modal data. While successful efforts have been made to integrate multi-modal representation learning into medical datasets, scant attention has been given to 3D medical images. In this paper, we propose Contrastive Masked Vim Autoencoder (CMViM), the first efficient representation learning method tailored for 3D multi-modal data. Our proposed framework is built on a masked Vim autoencoder to learn a unified multi-modal representation and long-dependencies contained in 3D medical images. We also introduce an intra-modal contrastive learning module to enhance the capability of the multi-modal Vim encoder for modeling the discriminative features in the same modality, and an inter-modal contrastive learning module to alleviate misaligned representation among modalities. Our framework consists of two main steps: 1) incorporate the Vision Mamba (Vim) into the mask autoencoder to reconstruct 3D masked multi-modal data efficiently. 2) align the multi-modal representations with contrastive learning mechanisms from both intra-modal and inter-modal aspects. Our framework is pre-trained and validated ADNI2 dataset and validated on the downstream task for AD classification. The proposed CMViM yields 2.7\% AUC performance improvement compared with other state-of-the-art methods.

arxiv情報

著者 Guangqian Yang,Kangrui Du,Zhihan Yang,Ye Du,Yongping Zheng,Shujun Wang
発行日 2024-03-25 08:02:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク