Attention-based Saliency Maps Improve Interpretability of Pneumothorax Classification

要約

目的:気胸の分類を例に、ビジョントランス(ViT)の胸部X線写真(CXR)分類性能と、注意に基づく顕著性の解釈可能性を調査する。 材料と方法このレトロスペクティブな研究では、4つの公開データセットを用いて、肺疾患分類のためのViTの微調整を行った。CheXpert、Chest X-Ray 14、MIMIC CXR、VinBigData。顕著性マップは、変換器によるマルチモーダル説明可能性と勾配重み付けクラス活性化マッピング(GradCAM)を用いて生成した。Chest X-Ray 14、VinBigData、SIIM-ACRのデータセットについて、受信者動作特性曲線下面積分析(AUC)を用いて分類性能を評価し、畳み込みニューラルネットワーク(CNN)と比較した。説明可能な手法は、正負の摂動、感度-n、有効熱量比、アーキテクチャ内再現性、アーキテクチャ間再現性で評価された。ユーザー研究では、3人の放射線科医が160枚のCXRを気胸について説明力マップあり/なしを分類し、その有用性を評価した。 結果は以下の通り。ViTは、最先端のCNNと比較して、CXR分類のAUCが同等だった Chest X-Ray 14では0.95(95%CI: 0.943, 0.950) 対 0.83(95%, CI 0.826, 0.842), 0.84 (95% CI: 0.769, 0.912) 対 0.83 (95% CI: 0.760, 0.895) VinBigData, 0.85 (95% CI: 0.847, 0.861) 対 0.87 (95% CI: 0.868, 0.882) SIIM ACRで得られた。両サリエンシーマップ法とも、モデルにおいて気胸管に強い偏りがあることが明らかになった。放射線技師は、注意に基づく顕著性マップの47%を有用とし、GradCAMは39%であった。注意に基づく方法は、すべての指標でGradCAMを上回った。 結論ViTはCXR分類においてCNNと同様の性能を示し、その注意ベースの顕著性マップは放射線科医にとってより有用であり、GradCAMを凌駕していた。

要約(オリジナル)

Purpose: To investigate chest radiograph (CXR) classification performance of vision transformers (ViT) and interpretability of attention-based saliency using the example of pneumothorax classification. Materials and Methods: In this retrospective study, ViTs were fine-tuned for lung disease classification using four public data sets: CheXpert, Chest X-Ray 14, MIMIC CXR, and VinBigData. Saliency maps were generated using transformer multimodal explainability and gradient-weighted class activation mapping (GradCAM). Classification performance was evaluated on the Chest X-Ray 14, VinBigData, and SIIM-ACR data sets using the area under the receiver operating characteristic curve analysis (AUC) and compared with convolutional neural networks (CNNs). The explainability methods were evaluated with positive/negative perturbation, sensitivity-n, effective heat ratio, intra-architecture repeatability and interarchitecture reproducibility. In the user study, three radiologists classified 160 CXRs with/without saliency maps for pneumothorax and rated their usefulness. Results: ViTs had comparable CXR classification AUCs compared with state-of-the-art CNNs 0.95 (95% CI: 0.943, 0.950) versus 0.83 (95%, CI 0.826, 0.842) on Chest X-Ray 14, 0.84 (95% CI: 0.769, 0.912) versus 0.83 (95% CI: 0.760, 0.895) on VinBigData, and 0.85 (95% CI: 0.847, 0.861) versus 0.87 (95% CI: 0.868, 0.882) on SIIM ACR. Both saliency map methods unveiled a strong bias toward pneumothorax tubes in the models. Radiologists found 47% of the attention-based saliency maps useful and 39% of GradCAM. The attention-based methods outperformed GradCAM on all metrics. Conclusion: ViTs performed similarly to CNNs in CXR classification, and their attention-based saliency maps were more useful to radiologists and outperformed GradCAM.

arxiv情報

著者 Alessandro Wollek,Robert Graf,Saša Čečatka,Nicola Fink,Theresa Willem,Bastian O. Sabel,Tobias Lasser
発行日 2023-03-03 12:05:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, eess.IV パーマリンク