Deployment of Image Analysis Algorithms under Prevalence Shifts

要約

ドメイン ギャップは、機械学習 (ML) ベースの医用画像解析ソリューションの臨床翻訳において最も関連性の高い障害の 1 つです。
現在の研究は新しいトレーニング パラダイムとネットワーク アーキテクチャに焦点を当てていますが、実際に展開されたアルゴリズムに対する有病率の変化の具体的な影響にはほとんど注意が払われていません。
メソッドの開発/検証に使用されるデータのクラス頻度とその展開環境のデータのクラス頻度の不一致は、たとえば人工知能 (AI) の民主化のコンテキストでは非常に重要です。
と場所。
私たちの貢献は 2 つあります。
まず、(i) 誤調整の程度、(ii) 最適値からの決定しきい値の偏差、および (iii) ニューラル ネットワークのパフォーマンスを反映する検証指標の能力を分析することにより、有病率処理の欠落の潜在的に深刻な結果を経験的に示します。
開発と展開の普及率の不一致の関数としての展開人口。
次に、追加の注釈付き展開データを必要とせずに、推定展開普及率を使用してトレーニングされた分類器を新しい環境に調整する、普及率を意識した画像分類のワークフローを提案します。
30 の医療分類タスクの多様なセットに基づく包括的な実験は、現在の実践と比較して、より優れた分類器の決定とより信頼性の高いパフォーマンス推定値を生成する上で提案されたワークフローの利点を示しています。

要約(オリジナル)

Domain gaps are among the most relevant roadblocks in the clinical translation of machine learning (ML)-based solutions for medical image analysis. While current research focuses on new training paradigms and network architectures, little attention is given to the specific effect of prevalence shifts on an algorithm deployed in practice. Such discrepancies between class frequencies in the data used for a method’s development/validation and that in its deployment environment(s) are of great importance, for example in the context of artificial intelligence (AI) democratization, as disease prevalences may vary widely across time and location. Our contribution is twofold. First, we empirically demonstrate the potentially severe consequences of missing prevalence handling by analyzing (i) the extent of miscalibration, (ii) the deviation of the decision threshold from the optimum, and (iii) the ability of validation metrics to reflect neural network performance on the deployment population as a function of the discrepancy between development and deployment prevalence. Second, we propose a workflow for prevalence-aware image classification that uses estimated deployment prevalences to adjust a trained classifier to a new environment, without requiring additional annotated deployment data. Comprehensive experiments based on a diverse set of 30 medical classification tasks showcase the benefit of the proposed workflow in generating better classifier decisions and more reliable performance estimates compared to current practice.

arxiv情報

著者 Patrick Godau,Piotr Kalinowski,Evangelia Christodoulou,Annika Reinke,Minu Tizabi,Luciana Ferrer,Paul Jäger,Lena Maier-Hein
発行日 2023-03-22 13:16:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.IV パーマリンク