Evaluating Reliability in Medical DNNs: A Critical Analysis of Feature and Confidence-Based OOD Detection

要約

医用画像解析にディープ ニューラル ネットワーク (DNN) を確実に使用するには、誤った予測を防ぐために、分布外 (OOD) と呼ばれる、トレーニング データと大きく異なる入力を識別する方法が必要です。
OOD 検出方法は、信頼度ベース (OOD 検出にモデルの出力層を使用) または特徴ベース (出力層を使用しない) に分類できます。
D7P (皮膚科) と BreastMNIST (超音波) データセットを、アーティファクト (それぞれ定規または注釈) を含むまたは含まないサブセットに分割することにより、2 つの新しい OOD ベンチマークを作成しました。
モデルはアーティファクトのない画像でトレーニングされ、アーティファクトのある画像が OOD テスト セットとして使用されました。
各 OOD 画像について、モデルの予測に対するアーティファクトの影響を評価するために、画像処理によってアーティファクトを手動で削除することにより反事実を作成しました。
私たちは、OOD アーティファクトが、他の要因の中でも特にトレーニング データの相関関係により、モデルの予測におけるソフトマックス信頼性を高めることができることを示します。
これは、OOD アーティファクトがより不確実な出力をもたらすはずであるという一般的な仮定 (ほとんどの信頼ベースの手法が依存する仮定) に矛盾します。
これを使用して、特徴ベースの方法 (マハラノビス スコアなど) が一般に信頼度ベースの方法 (MCP など) よりも OOD 検出パフォーマンスが優れている理由を説明します。
ただし、特徴ベースの手法は、(OOD データと ID データの両方について) 正確な予測と不正確な予測につながる入力を区別する際のパフォーマンスが一般的に劣ることも示します。
これらの洞察に基づいて、DNN パイプライン内で特徴ベースの手法と信頼ベースの手法を組み合わせて使用​​し、それぞれの弱点を軽減する必要があると主張します。
これらのプロジェクトのコードと OOD ベンチマークは、https://github.com/HarryAnthony/Evaluating_OOD_detection で入手できます。

要約(オリジナル)

Reliable use of deep neural networks (DNNs) for medical image analysis requires methods to identify inputs that differ significantly from the training data, called out-of-distribution (OOD), to prevent erroneous predictions. OOD detection methods can be categorised as either confidence-based (using the model’s output layer for OOD detection) or feature-based (not using the output layer). We created two new OOD benchmarks by dividing the D7P (dermatology) and BreastMNIST (ultrasound) datasets into subsets which either contain or don’t contain an artefact (rulers or annotations respectively). Models were trained with artefact-free images, and images with the artefacts were used as OOD test sets. For each OOD image, we created a counterfactual by manually removing the artefact via image processing, to assess the artefact’s impact on the model’s predictions. We show that OOD artefacts can boost a model’s softmax confidence in its predictions, due to correlations in training data among other factors. This contradicts the common assumption that OOD artefacts should lead to more uncertain outputs, an assumption on which most confidence-based methods rely. We use this to explain why feature-based methods (e.g. Mahalanobis score) typically have greater OOD detection performance than confidence-based methods (e.g. MCP). However, we also show that feature-based methods typically perform worse at distinguishing between inputs that lead to correct and incorrect predictions (for both OOD and ID data). Following from these insights, we argue that a combination of feature-based and confidence-based methods should be used within DNN pipelines to mitigate their respective weaknesses. These project’s code and OOD benchmarks are available at: https://github.com/HarryAnthony/Evaluating_OOD_detection.

arxiv情報

著者 Harry Anthony,Konstantinos Kamnitsas
発行日 2024-08-30 15:02:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク