Deployment of Image Analysis Algorithms under Prevalence Shifts


ドメイン ギャップは、医療画像分析のための機械学習 (ML) ベースのソリューションの臨床翻訳において最も関連性の高い障害の 1 つです。
現在の研究は新しいトレーニング パラダイムとネットワーク アーキテクチャに焦点を当てていますが、実際に導入されたアルゴリズムに対する普及率の変化の具体的な影響についてはほとんど注目されていません。
病気の有病率は時間や場所によって大きく異なる可能性があるため、メソッドの開発/検証に使用されるデータのクラス頻度とその展開環境のクラス頻度との間のこのような不一致は、たとえば人工知能 (AI) の民主化の文脈において非常に重要です。
私たちの貢献は 2 つあります。
まず、(i) 誤ったキャリブレーションの程度、(ii) 最適値からの決定閾値の偏差、および (iii) 開発と展開の普及率の間の不一致の関数として、展開母集団にニューラル ネットワークのパフォーマンスを反映する検証メトリクスの能力を分析することにより、普及率の処理が欠落している場合の潜在的に深刻な結果を経験的に実証します。
2 番目に、追加の注釈付き展開データを必要とせずに、推定された展開普及率を使用して、トレーニングされた分類器を新しい環境に合わせて調整する、普及を意識した画像分類のワークフローを提案します。
30 の医療分類タスクの多様なセットに基づく包括的な実験では、現在の実践と比較して、より適切な分類子の決定とより信頼性の高いパフォーマンス推定値を生成する上で、提案されたワークフローの利点が示されています。


Domain gaps are among the most relevant roadblocks in the clinical translation of machine learning (ML)-based solutions for medical image analysis. While current research focuses on new training paradigms and network architectures, little attention is given to the specific effect of prevalence shifts on an algorithm deployed in practice. Such discrepancies between class frequencies in the data used for a method’s development/validation and that in its deployment environment(s) are of great importance, for example in the context of artificial intelligence (AI) democratization, as disease prevalences may vary widely across time and location. Our contribution is twofold. First, we empirically demonstrate the potentially severe consequences of missing prevalence handling by analyzing (i) the extent of miscalibration, (ii) the deviation of the decision threshold from the optimum, and (iii) the ability of validation metrics to reflect neural network performance on the deployment population as a function of the discrepancy between development and deployment prevalence. Second, we propose a workflow for prevalence-aware image classification that uses estimated deployment prevalences to adjust a trained classifier to a new environment, without requiring additional annotated deployment data. Comprehensive experiments based on a diverse set of 30 medical classification tasks showcase the benefit of the proposed workflow in generating better classifier decisions and more reliable performance estimates compared to current practice.


著者 Patrick Godau,Piotr Kalinowski,Evangelia Christodoulou,Annika Reinke,Minu Tizabi,Luciana Ferrer,Paul Jäger,Lena Maier-Hein
発行日 2023-07-24 13:35:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV, cs.LG, eess.IV パーマリンク