How You Split Matters: Data Leakage and Subject Characteristics Studies in Longitudinal Brain MRI Analysis

要約

ディープラーニング・モデルは医療画像解析の分野に革命をもたらし、診断と患者ケアの改善に大きな期待をもたらしている。しかし、「データリーク」と呼ばれる隠れた落とし穴により、その性能は誤解を招くほど楽観的なものになる可能性がある。本研究では、3次元医用画像におけるデータ漏れを調査し、特に脳MRI解析に3次元畳み込みニューラルネットワーク(CNN)を用いる。3次元CNNは2次元CNNに比べリークしにくいように見えるが、クロスバリデーション(CV)中の不適切なデータ分割は、特に同じ被験者からの繰り返しスキャンを含む縦断的画像データでは、依然として問題を引き起こす可能性がある。我々は、縦断的脳MRI解析のモデル性能に対する異なるデータ分割戦略の影響を調べ、潜在的なデータ漏れの懸念を特定する。GradCAMの可視化は、モデルが診断特徴と共に被験者を識別するように学習する、同一性交絡によって引き起こされるCNNモデルのショートカットを明らかにするのに役立つ。先行研究と一致する我々の発見は、医療画像解析における深層学習モデルの完全性と信頼性を確保するために、被験者ごとに分割し、異なる被験者からのホールドアウトデータで我々のモデルをさらに評価することの重要性を強調している。

要約(オリジナル)

Deep learning models have revolutionized the field of medical image analysis, offering significant promise for improved diagnostics and patient care. However, their performance can be misleadingly optimistic due to a hidden pitfall called ‘data leakage’. In this study, we investigate data leakage in 3D medical imaging, specifically using 3D Convolutional Neural Networks (CNNs) for brain MRI analysis. While 3D CNNs appear less prone to leakage than 2D counterparts, improper data splitting during cross-validation (CV) can still pose issues, especially with longitudinal imaging data containing repeated scans from the same subject. We explore the impact of different data splitting strategies on model performance for longitudinal brain MRI analysis and identify potential data leakage concerns. GradCAM visualization helps reveal shortcuts in CNN models caused by identity confounding, where the model learns to identify subjects along with diagnostic features. Our findings, consistent with prior research, underscore the importance of subject-wise splitting and evaluating our model further on hold-out data from different subjects to ensure the integrity and reliability of deep learning models in medical image analysis.

arxiv情報

著者 Dewinda Julianensi Rumala
発行日 2023-09-01 09:15:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, eess.IV パーマリンク