Evaluating the Fairness of Deep Learning Uncertainty Estimates in Medical Image Analysis

要約

深層学習(DL)モデルは多くの医用画像解析タスクで大きな成功を収めているが、得られたモデルを実際の臨床コンテキストに展開するには、(1)異なるサブ集団間で頑健性と公平性を示すこと、(2)DLモデルの予測に対する信頼性が不確実性の形で正確に表現されること、が求められる。残念ながら、最近の研究では、医用画像解析の文脈で、人口統計学的なサブグループ(人種、性別、年齢など)間でDLモデルに著しい偏りがあることが実際に示されており、モデルの公平性が欠如していることを示している。MLの文献では、DLモデルの公平性の欠如を緩和するためのいくつかの方法が提案されているが、それらは不確実性推定への影響を考慮することなく、グループ間の絶対性能に完全に焦点を合わせている。本研究では、医用画像解析におけるサブグループ間の偏りを克服するための一般的な公平性モデルの効果を、ボトムライン性能の観点から初めて探索し、不確実性定量化に対する効果を提示する。我々は、臨床に関連する3つの異なるタスク、(i) 皮膚病変分類、(ii) 脳腫瘍セグメンテーション、(iii) アルツハイマー病臨床スコア回帰について大規模な実験を実施した。その結果、データバランシングや分布ロバスト最適化などの一般的なML手法は、いくつかのタスクにおいてモデル性能の公平性の問題を軽減することに成功したことが示された。しかし、これは、モデル予測に関連する不確実性の推定が不十分であるという代償を払うことになる可能性がある。医用画像解析に公平性モデルを採用する場合、このトレードオフを緩和する必要がある。

要約(オリジナル)

Although deep learning (DL) models have shown great success in many medical image analysis tasks, deployment of the resulting models into real clinical contexts requires: (1) that they exhibit robustness and fairness across different sub-populations, and (2) that the confidence in DL model predictions be accurately expressed in the form of uncertainties. Unfortunately, recent studies have indeed shown significant biases in DL models across demographic subgroups (e.g., race, sex, age) in the context of medical image analysis, indicating a lack of fairness in the models. Although several methods have been proposed in the ML literature to mitigate a lack of fairness in DL models, they focus entirely on the absolute performance between groups without considering their effect on uncertainty estimation. In this work, we present the first exploration of the effect of popular fairness models on overcoming biases across subgroups in medical image analysis in terms of bottom-line performance, and their effects on uncertainty quantification. We perform extensive experiments on three different clinically relevant tasks: (i) skin lesion classification, (ii) brain tumour segmentation, and (iii) Alzheimer’s disease clinical score regression. Our results indicate that popular ML methods, such as data-balancing and distributionally robust optimization, succeed in mitigating fairness issues in terms of the model performances for some of the tasks. However, this can come at the cost of poor uncertainty estimates associated with the model predictions. This tradeoff must be mitigated if fairness models are to be adopted in medical image analysis.

arxiv情報

著者 Raghav Mehta,Changjian Shui,Tal Arbel
発行日 2023-03-06 16:01:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.CY, cs.LG パーマリンク