Multimodal Attention-based Deep Learning for Alzheimer’s Disease Diagnosis

要約

アルツハイマー病(AD)は、最も複雑な病因の1つを伴う最も一般的な神経変性疾患であり、効果的で臨床的に実行可能な意思決定支援を困難にします。
この研究の目的は、AD診断において医療専門家を支援するための新しいマルチモーダル深層学習フレームワークを開発することでした。
マルチモーダルアルツハイマー病診断フレームワーク(MADDi)を提示して、画像、遺伝、および臨床データからADおよび軽度認知障害(MCI)の存在を正確に検出します。
MADDiは、モダリティ間の相互作用をキャプチャするクロスモーダルアテンションを使用するという点で斬新です。これは、このドメインではこれまで検討されていなかった方法です。
MCIとADの強い類似性を考慮すると、困難なタスクであるマルチクラス分類を実行します。
以前の最先端モデルと比較し、注意の重要性を評価し、モデルのパフォーマンスに対する各モダリティの寄与を調べます。
MADDiは、MCI、AD、およびコントロールを、保持されたテストセットで96.88%の精度で分類します。
さまざまな注意スキームの寄与を調べると、クロスモーダル注意と自己注意の組み合わせが最高のパフォーマンスを示し、モデル内の注意レイヤーは最低のパフォーマンスを示しず、F1スコアに7.9%の差があることがわかりました。
私たちの実験は、機械学習モデルが残りのモダリティをコンテキスト化して解釈するのに役立つ構造化された臨床データの重要性を強調しました。
広範なアブレーション研究では、構造化された臨床情報にアクセスできない入力機能のマルチモーダル混合は、パフォーマンスが著しく低下することが示されました。
この研究は、クロスモーダル注意を介して複数の入力モダリティを組み合わせて、非常に正確なAD診断意思決定支援を提供することのメリットを示しています。

要約(オリジナル)

Alzheimer’s Disease (AD) is the most common neurodegenerative disorder with one of the most complex pathogeneses, making effective and clinically actionable decision support difficult. The objective of this study was to develop a novel multimodal deep learning framework to aid medical professionals in AD diagnosis. We present a Multimodal Alzheimer’s Disease Diagnosis framework (MADDi) to accurately detect the presence of AD and mild cognitive impairment (MCI) from imaging, genetic, and clinical data. MADDi is novel in that we use cross-modal attention, which captures interactions between modalities – a method not previously explored in this domain. We perform multi-class classification, a challenging task considering the strong similarities between MCI and AD. We compare with previous state-of-the-art models, evaluate the importance of attention, and examine the contribution of each modality to the model’s performance. MADDi classifies MCI, AD, and controls with 96.88% accuracy on a held-out test set. When examining the contribution of different attention schemes, we found that the combination of cross-modal attention with self-attention performed the best, and no attention layers in the model performed the worst, with a 7.9% difference in F1-Scores. Our experiments underlined the importance of structured clinical data to help machine learning models contextualize and interpret the remaining modalities. Extensive ablation studies showed that any multimodal mixture of input features without access to structured clinical information suffered marked performance losses. This study demonstrates the merit of combining multiple input modalities via cross-modal attention to deliver highly accurate AD diagnostic decision support.

arxiv情報

著者 Michal Golovanevsky,Carsten Eickhoff,Ritambhara Singh
発行日 2022-06-17 15:10:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.IV パーマリンク