Performance evaluation of predictive AI models to support medical decisions: Overview and guidance

要約

予測人工知能 (AI) モデルのパフォーマンスを説明するための無数の尺度が文献で提案されています。
医療現場で使用するために開発された予測 AI モデルには、適切なパフォーマンス指標を選択することが不可欠です。パフォーマンスの低いモデルは患者に損害を与え、コストの増加につながる可能性があるためです。
私たちは、医療現場で使用する予測 AI モデルを検証する際に、古典的および現代的なパフォーマンス測定の利点を評価することを目的としています。
私たちはバイナリの結果を持つモデルに焦点を当てます。
5 つのパフォーマンス領域 (識別、キャリブレーション、全体、分類、臨床的有用性) をカバーする 32 のパフォーマンス尺度について、付随するグラフィック評価とともに説明します。
最初の 4 つのドメインは統計パフォーマンスをカバーし、5 番目のドメインは意思決定分析パフォーマンスをカバーします。
どのパフォーマンス尺度を評価するかを選択する際に、2 つの重要な特性が重要である理由を説明します。(1) 正しい確率を使用して計算されたときに尺度の期待値が最適化されているかどうか (つまり、「適切な」尺度)、(2) それらが最適化されているかどうか
誤分類コストを適切に考慮することにより、純粋に統計的なパフォーマンスまたは意思決定分析のパフォーマンスのいずれかを反映します。
17 の測定値は両方の特性を示し、14 の測定値は一方の特性を示し、1 つの測定値はどちらの特性も持ちませんでした (F1 測定値)。
すべての分類尺度 (分類精度や F1 など) は、0.5 または有病率以外の臨床的に関連する決定閾値には不適切です。
レポートには次の測定値とプロットを必須として推奨します: AUROC、キャリブレーション プロット、決定曲線分析による純利益などの臨床有用性測定値、および結果カテゴリごとの確率分布を含むプロット。

要約(オリジナル)

A myriad of measures to illustrate performance of predictive artificial intelligence (AI) models have been proposed in the literature. Selecting appropriate performance measures is essential for predictive AI models that are developed to be used in medical practice, because poorly performing models may harm patients and lead to increased costs. We aim to assess the merits of classic and contemporary performance measures when validating predictive AI models for use in medical practice. We focus on models with a binary outcome. We discuss 32 performance measures covering five performance domains (discrimination, calibration, overall, classification, and clinical utility) along with accompanying graphical assessments. The first four domains cover statistical performance, the fifth domain covers decision-analytic performance. We explain why two key characteristics are important when selecting which performance measures to assess: (1) whether the measure’s expected value is optimized when it is calculated using the correct probabilities (i.e., a ‘proper’ measure), and (2) whether they reflect either purely statistical performance or decision-analytic performance by properly considering misclassification costs. Seventeen measures exhibit both characteristics, fourteen measures exhibited one characteristic, and one measure possessed neither characteristic (the F1 measure). All classification measures (such as classification accuracy and F1) are improper for clinically relevant decision thresholds other than 0.5 or the prevalence. We recommend the following measures and plots as essential to report: AUROC, calibration plot, a clinical utility measure such as net benefit with decision curve analysis, and a plot with probability distributions per outcome category.

arxiv情報

著者 Ben Van Calster,Gary S. Collins,Andrew J. Vickers,Laure Wynants,Kathleen F. Kerr,Lasai Barreñada,Gael Varoquaux,Karandeep Singh,Karel G. M. Moons,Tina Hernandez-boussard,Dirk Timmerman,David J. Mclernon,Maarten Van Smeden,Ewout W. Steyerberg
発行日 2024-12-13 17:11:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ME, stat.ML パーマリンク