Pfungst and Clever Hans: Identifying the unintended cues in a widely used Alzheimer’s disease MRI dataset using explainable deep learning

要約

背景。
深いニューラルネットワークは、アルツハイマー病(AD)を分類する際に高い精度を実証しています。
この研究の目的は、基礎となるブラックボックスの性質を啓発し、T1強調(T1W)グレーホワイトの物質テクスチャ、ボリューム情報情報、分類パフォーマンスに関する前処理の個々の貢献を明らかにすることを目的としています。
方法。
アルツハイマー病の神経画像イニシアチブからのT1W MRIデータを利用して、一致したAD患者(990 MRI)と健康なコントロール(990 MRI)を区別しました。
前処理には、テクスチャ情報を体系的に排除するために、さまざまなしきい値での頭蓋骨の剥離と二等分が含まれていました。
これらの構成について深いニューラルネットワークをトレーニングし、モデルのパフォーマンスを、個別のボンフェローニホルム補正を使用したMcNemarテストを使用して比較されました。
レイヤーごとの関連性伝播(LRP)とヒートマップ間の構造的類似性メトリックを適用して、学習された機能を分析しました。
結果。
分類パフォーマンスメトリック(精度、感度、および特異性)は、すべての構成で同等であり、T1Wグレーと白の信号テクスチャの無視できる影響を示しています。
二等層の画像で訓練されたモデルは、萎縮や頭蓋骨の縞模様の特徴などの体積機能を備えた同様の特徴のパフォーマンスと関連性分布を実証しました。
結論。
広く使用されている広告MRIデータセットで、以前に発見されていない巧妙なHans効果を明らかにしました。
ディープニューラルネットワークの分類は、主に体積機能に依存していますが、グレーホワイトの物質T1Wテクスチャを排除してもパフォーマンスは低下しませんでした。
この研究は、少なくとも広く使用されている構造T1W画像では、グレーホワイトの物質コントラストの重要性の過大評価を明確に示しており、パフォーマンスメトリックの潜在的な誤解を強調しています。

要約(オリジナル)

Backgrounds. Deep neural networks have demonstrated high accuracy in classifying Alzheimer’s disease (AD). This study aims to enlighten the underlying black-box nature and reveal individual contributions of T1-weighted (T1w) gray-white matter texture, volumetric information and preprocessing on classification performance. Methods. We utilized T1w MRI data from the Alzheimer’s Disease Neuroimaging Initiative to distinguish matched AD patients (990 MRIs) from healthy controls (990 MRIs). Preprocessing included skull stripping and binarization at varying thresholds to systematically eliminate texture information. A deep neural network was trained on these configurations, and the model performance was compared using McNemar tests with discrete Bonferroni-Holm correction. Layer-wise Relevance Propagation (LRP) and structural similarity metrics between heatmaps were applied to analyze learned features. Results. Classification performance metrics (accuracy, sensitivity, and specificity) were comparable across all configurations, indicating a negligible influence of T1w gray- and white signal texture. Models trained on binarized images demonstrated similar feature performance and relevance distributions, with volumetric features such as atrophy and skull-stripping features emerging as primary contributors. Conclusions. We revealed a previously undiscovered Clever Hans effect in a widely used AD MRI dataset. Deep neural networks classification predominantly rely on volumetric features, while eliminating gray-white matter T1w texture did not decrease the performance. This study clearly demonstrates an overestimation of the importance of gray-white matter contrasts, at least for widely used structural T1w images, and highlights potential misinterpretation of performance metrics.

arxiv情報

著者 Christian Tinauer,Maximilian Sackl,Rudolf Stollberger,Stefan Ropele,Christian Langkammer
発行日 2025-03-25 14:41:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.IV パーマリンク