Slicing Through Bias: Explaining Performance Gaps in Medical Image Analysis using Slice Discovery Methods

要約

機械学習モデルは、医療画像分析において全体的に高い精度を達成しました。
しかし、特定の患者グループにおけるパフォーマンスの格差は、臨床での有用性、安全性、公平性に課題をもたらします。
これは、性別、年齢、疾患のサブタイプに基づく患者グループなどの既知の患者グループだけでなく、これまで知られていなかったラベルのないグループにも影響を与える可能性があります。
さらに、このように観察されたパフォーマンスの差異の根本原因は、多くの場合解明が困難であり、軽減努力の妨げとなっています。
このペーパーでは、これらの問題に対処するために、スライス発見法 (SDM) を活用して、解釈可能なパフォーマンスの低いデータのサブセットを特定し、観察されたパフォーマンスの差異の原因に関する仮説を立てます。
新しい SDM を導入し、胸部 X 線写真からの気胸と無気肺の分類に関するケーススタディに適用します。
私たちの研究は、仮説構築における SDM の有効性を実証し、広く使用されている胸部 X 線データセットとモデルにおける男性患者と女性患者の間でこれまで観察されていたが説明されていなかったパフォーマンスの差異の説明をもたらしました。
私たちの調査結果は、それぞれ胸腔ドレーンとECGワイヤーの存在を通じて、両方の分類タスクにおけるショートカット学習を示しています。
これらのショートカット機能の普及率における性別による違いは、観察された分類パフォーマンスのギャップを引き起こしているようで、これはショートカット学習とモデルの公平性分析の間のこれまで過小評価されていた相互作用を表しています。

要約(オリジナル)

Machine learning models have achieved high overall accuracy in medical image analysis. However, performance disparities on specific patient groups pose challenges to their clinical utility, safety, and fairness. This can affect known patient groups – such as those based on sex, age, or disease subtype – as well as previously unknown and unlabeled groups. Furthermore, the root cause of such observed performance disparities is often challenging to uncover, hindering mitigation efforts. In this paper, to address these issues, we leverage Slice Discovery Methods (SDMs) to identify interpretable underperforming subsets of data and formulate hypotheses regarding the cause of observed performance disparities. We introduce a novel SDM and apply it in a case study on the classification of pneumothorax and atelectasis from chest x-rays. Our study demonstrates the effectiveness of SDMs in hypothesis formulation and yields an explanation of previously observed but unexplained performance disparities between male and female patients in widely used chest X-ray datasets and models. Our findings indicate shortcut learning in both classification tasks, through the presence of chest drains and ECG wires, respectively. Sex-based differences in the prevalence of these shortcut features appear to cause the observed classification performance gap, representing a previously underappreciated interaction between shortcut learning and model fairness analyses.

arxiv情報

著者 Vincent Olesen,Nina Weng,Aasa Feragen,Eike Petersen
発行日 2024-10-22 13:32:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.CY, cs.LG パーマリンク