Inadequacy of common stochastic neural networks for reliable clinical decision support

要約

倫理的および安全性に関する懸念により、医療意思決定における AI の広範な導入は依然として妨げられています。
医療現場における AI ベースの意思決定支援システムにとって、信頼性と信頼性が最も重要です。
ただし、一般的なディープ ラーニングのアプローチは、データ シフトの下で過信する傾向があります。
証拠に基づいたシナリオを超えたこのような不適切な外挿は、悲惨な結果をもたらす可能性があります。
これは、局所的な不確実性の信頼できる推定と、それをエンドユーザーに伝えることの重要性を強調しています。
確率的ニューラル ネットワークはこれらの問題に対する潜在的な解決策として注目されていますが、この研究では臨床応用における実際の信頼性を調査しています。
私たちは、MIMIC3 研究の EHR を使用した ICU 入院の死亡率予測の例示的なユースケースを中心に分析を行いました。
EHR 時系列の予測には、Encoder-Only Transformer モデルが使用されました。
モデル関数の確率性は、ベイジアン ニューラル ネットワーク層やモデル アンサンブルなどの一般的な手法を組み込むことで実現されました。
当社のモデルは、識別性能 (AUC ROC: 0.868+-0.011、AUC PR: 0.554+-0.034) および死亡率予測ベンチマークのキャリブレーションの点で最先端のパフォーマンスを達成しています。
ただし、認識論的な不確実性は、選択された確率的深層学習手法によって決定的に過小評価されます。
事後分布の責任ある崩壊に対するヒューリスティックな証明が提供されます。
私たちの調査結果は、一般的に使用されている確率的深層学習アプローチが、OoD サンプルを確実に認識するには不十分であることを明らかにしています。
どちらの方法でも、機能的事後分布に強く偏りがあるため、実証されていないモデルの信頼性が妨げられず、信頼性の高い臨床意思決定のサポートには不適切になります。
これは、カーネルベースの技術を使用するなど、既知のデータポイントに対してより厳密に強制された、または固有の距離認識を備えたアプローチの必要性を強調しています。

要約(オリジナル)

Widespread adoption of AI for medical decision making is still hindered due to ethical and safety-related concerns. For AI-based decision support systems in healthcare settings it is paramount to be reliable and trustworthy. Common deep learning approaches, however, have the tendency towards overconfidence under data shift. Such inappropriate extrapolation beyond evidence-based scenarios may have dire consequences. This highlights the importance of reliable estimation of local uncertainty and its communication to the end user. While stochastic neural networks have been heralded as a potential solution to these issues, this study investigates their actual reliability in clinical applications. We centered our analysis on the exemplary use case of mortality prediction for ICU hospitalizations using EHR from MIMIC3 study. For predictions on the EHR time series, Encoder-Only Transformer models were employed. Stochasticity of model functions was achieved by incorporating common methods such as Bayesian neural network layers and model ensembles. Our models achieve state of the art performance in terms of discrimination performance (AUC ROC: 0.868+-0.011, AUC PR: 0.554+-0.034) and calibration on the mortality prediction benchmark. However, epistemic uncertainty is critically underestimated by the selected stochastic deep learning methods. A heuristic proof for the responsible collapse of the posterior distribution is provided. Our findings reveal the inadequacy of commonly used stochastic deep learning approaches to reliably recognize OoD samples. In both methods, unsubstantiated model confidence is not prevented due to strongly biased functional posteriors, rendering them inappropriate for reliable clinical decision support. This highlights the need for approaches with more strictly enforced or inherent distance-awareness to known data points, e.g., using kernel-based techniques.

arxiv情報

著者 Adrian Lindenmeyer,Malte Blattmann,Stefan Franke,Thomas Neumuth,Daniel Schneider
発行日 2024-01-25 12:31:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク