Toward Clinically Trustworthy Deep Learning: Applying Conformal Prediction to Intracranial Hemorrhage Detection

要約

ディープラーニング (DL) は放射線業務においてその能力を実証し続けているため、安全性を考慮して臨床 DL ソリューションを最適化することが重要です。
DL ツールの臨床導入における主な懸念事項の 1 つは信頼です。
この研究は、放射線医学における DL の信頼性へのステップとしてコンフォーマル予測を適用することを目的としています。
これは、CQ500 データセットからの 491 枚の非造影頭部 CT の後ろ向き研究であり、3 人の上級放射線科医が頭蓋内出血 (ICH) を含むスライスに注釈を付けました。
データセットは明確なサブセットと挑戦的なサブセットに分割され、挑戦的な画像は読者間で意見の相違がある画像と定義されました。
DL モデルは、明確なデータ (トレーニング データセット) から 146 人の患者 (10,815 スライス) でトレーニングされ、ICH の 5 つのクラスの ICH 位置特定と分類が実行されました。
不確実性を考慮した DL モデルを開発するために、1,546 ケースの確定データ (キャリブレーション データセット) がモンドリアン等角予測 (MCP) に使用されました。
不確実性を認識した DL モデルは、困難なケースを識別する能力を評価するために、8,401 件の明確で困難なケースでテストされました。
MCP 手順の後、モデルはテスト データセットの ICH 分類で 0.920 の F1 スコアを達成しました。
さらに、合計 6,856 件の困難なケースのうち 6,837 件を困難なものとして正確に識別しました (精度 99.7%)。
明確なケースを困難なものとして誤ってラベル付けしたわけではありません。
不確実性を認識した ICH 検出器は、最先端のモデルと同等の性能を発揮します。
困難な症例の検出における MCP のパフォーマンスは、MCP が自動 ICH 検出に有用であることを示しており、放射線医学的 DL の信頼性が期待できます。

要約(オリジナル)

As deep learning (DL) continues to demonstrate its ability in radiological tasks, it is critical that we optimize clinical DL solutions to include safety. One of the principal concerns in the clinical adoption of DL tools is trust. This study aims to apply conformal prediction as a step toward trustworthiness for DL in radiology. This is a retrospective study of 491 non-contrast head CTs from the CQ500 dataset, in which three senior radiologists annotated slices containing intracranial hemorrhage (ICH). The dataset was split into definite and challenging subsets, where challenging images were defined to those in which there was disagreement among readers. A DL model was trained on 146 patients (10,815 slices) from the definite data (training dataset) to perform ICH localization and classification for five classes of ICH. To develop an uncertainty-aware DL model, 1,546 cases of the definite data (calibration dataset) was used for Mondrian conformal prediction (MCP). The uncertainty-aware DL model was tested on 8,401 definite and challenging cases to assess its ability to identify challenging cases. After the MCP procedure, the model achieved an F1 score of 0.920 for ICH classification on the test dataset. Additionally, it correctly identified 6,837 of the 6,856 total challenging cases as challenging (99.7% accuracy). It did not incorrectly label any definite cases as challenging. The uncertainty-aware ICH detector performs on par with state-of-the-art models. MCP’s performance in detecting challenging cases demonstrates that it is useful in automated ICH detection and promising for trustworthiness in radiological DL.

arxiv情報

著者 Cooper Gamble,Shahriar Faghani,Bradley J. Erickson
発行日 2024-01-16 02:26:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク