Mitigating Calibration Bias Without Fixed Attribute Grouping for Improved Fairness in Medical Imaging Analysis

要約

ディープラーニング医用画像モデルを実際の臨床現場に信頼して導入するには、それらを調整する必要があります。
ただし、全体的に適切にキャリブレーションされているモデルであっても、部分母集団に対してはキャリブレーションが不十分な場合があり、その結果、臨床医がモデルの推奨に基づいてこのグループに対して誤った決定を下してしまう可能性があります。
モデルの精度に関してサブグループ間のバイアスを軽減する方法が示されていますが、この研究では、医療画像分析のコンテキストにおけるキャリブレーション バイアスの軽減という未解決の問題に焦点を当てています。
私たちの方法はトレーニング中にサブグループ属性を必要としないため、再トレーニングすることなく機密属性のさまざまな選択に対するバイアスを柔軟に緩和できます。
この目的を達成するために、我々は新しい 2 段階の方法を提案します。まずクラスター焦点を使用して、キャリブレーションが不十分なサンプルを特定し、それらをグループにクラスター化し、次にグループごとの焦点損失を導入してキャリブレーション バイアスを改善します。
公開されている HAM10000 データセットを使用した皮膚病変の分類と、多発性硬化症 (MS) 患者の将来の病変活動の予測に関する手法を評価します。
人口統計上のサブグループで従来の敏感な属性(年齢、性別など)を考慮することに加えて、医用画像解析に必要な病変量など、画像由来の異なる属性を持つグループ間のバイアスも考慮します。
私たちの結果は、私たちの方法が予測パフォーマンスを維持しながら、最もパフォーマンスの悪いサブグループの校正誤差を効果的に制御し、最近のベースラインを上回るパフォーマンスを示していることを示しています。

要約(オリジナル)

Trustworthy deployment of deep learning medical imaging models into real-world clinical practice requires that they be calibrated. However, models that are well calibrated overall can still be poorly calibrated for a sub-population, potentially resulting in a clinician unwittingly making poor decisions for this group based on the recommendations of the model. Although methods have been shown to successfully mitigate biases across subgroups in terms of model accuracy, this work focuses on the open problem of mitigating calibration biases in the context of medical image analysis. Our method does not require subgroup attributes during training, permitting the flexibility to mitigate biases for different choices of sensitive attributes without re-training. To this end, we propose a novel two-stage method: Cluster-Focal to first identify poorly calibrated samples, cluster them into groups, and then introduce group-wise focal loss to improve calibration bias. We evaluate our method on skin lesion classification with the public HAM10000 dataset, and on predicting future lesional activity for multiple sclerosis (MS) patients. In addition to considering traditional sensitive attributes (e.g. age, sex) with demographic subgroups, we also consider biases among groups with different image-derived attributes, such as lesion load, which are required in medical image analysis. Our results demonstrate that our method effectively controls calibration error in the worst-performing subgroups while preserving prediction performance, and outperforming recent baselines.

arxiv情報

著者 Changjian Shui,Justin Szeto,Raghav Mehta,Douglas L. Arnold,Tal Arbel
発行日 2023-07-20 17:53:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク