Dermatological Diagnosis Explainability Benchmark for Convolutional Neural Networks

要約

近年、深層学習 (DL) の成功に一部支えられて、皮膚科への応用のための機械学習手法の開発に大きな進歩が見られました。
今日まで、画像から病気を診断することは、皮膚科で最も研究されている DL のアプリケーションの 1 つです。
畳み込みニューラル ネットワーク (ConvNets) は、トレーニングの効率と精度が高いため、医用画像処理で最も一般的な (DL) 方法ですが、説明可能性が限られているためブラック ボックスと呼ばれることがよくあります。
ConvNet の決定メカニズムに関する洞察を得る一般的な方法の 1 つは、勾配クラス活性化マップ (Grad-CAM) です。
Grad-CAM の説明可能性の定量的評価は、ConvNet アーキテクチャの説明可能性のベンチマークを可能にする皮膚疾患診断の説明可能性のデータセットである DermXDB のリリースによって最近可能になりました。
このホワイト ペーパーでは、このタスクに使用される最も一般的な ConvNet アーキテクチャを特定するために文献レビューを行い、それらの Grad-CAM の説明を DermXDB が提供する説明マップと比較します。
DenseNet121、EfficientNet-B0、InceptionV3、InceptionResNetV2、MobileNet、MobileNetV2、NASNetMobile、ResNet50、ResNet50V2、VGG16、および Xception の 11 のアーキテクチャを特定しました。
すべてのアーキテクチャを臨床皮膚疾患データセットで事前トレーニングし、DermXDB サブセットで微調整しました。
DermXDB ホールドアウト サブセットの検証結果は、説明可能性 F1 スコアが 0.35 ~ 0.46 であり、Xception が最高の説明可能性パフォーマンスを示しています。
NASNetMobile は、平凡な診断パフォーマンスにもかかわらず、最高の特性レベルの説明可能性感度を報告します。
これらの結果は、目的のアプリケーションとターゲット市場に適したアーキテクチャを選択することの重要性を強調し、追加の説明可能性データセットの必要性を強調し、定量分析に依存する説明可能性ベンチマークの必要性をさらに確認します。

要約(オリジナル)

In recent years, large strides have been taken in developing machine learning methods for dermatological applications, supported in part by the success of deep learning (DL). To date, diagnosing diseases from images is one of the most explored applications of DL within dermatology. Convolutional neural networks (ConvNets) are the most common (DL) method in medical imaging due to their training efficiency and accuracy, although they are often described as black boxes because of their limited explainability. One popular way to obtain insight into a ConvNet’s decision mechanism is gradient class activation maps (Grad-CAM). A quantitative evaluation of the Grad-CAM explainability has been recently made possible by the release of DermXDB, a skin disease diagnosis explainability dataset which enables explainability benchmarking of ConvNet architectures. In this paper, we perform a literature review to identify the most common ConvNet architectures used for this task, and compare their Grad-CAM explanations with the explanation maps provided by DermXDB. We identified 11 architectures: DenseNet121, EfficientNet-B0, InceptionV3, InceptionResNetV2, MobileNet, MobileNetV2, NASNetMobile, ResNet50, ResNet50V2, VGG16, and Xception. We pre-trained all architectures on an clinical skin disease dataset, and fine-tuned them on a DermXDB subset. Validation results on the DermXDB holdout subset show an explainability F1 score of between 0.35-0.46, with Xception displaying the highest explainability performance. NASNetMobile reports the highest characteristic-level explainability sensitivity, despite it’s mediocre diagnosis performance. These results highlight the importance of choosing the right architecture for the desired application and target market, underline need for additional explainability datasets, and further confirm the need for explainability benchmarking that relies on quantitative analyses.

arxiv情報

著者 Raluca Jalaboi,Ole Winther,Alfiia Galimzianova
発行日 2023-02-23 15:16:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T45, 92B20, 92C50, cs.CV, cs.LG パーマリンク