要約
最近の研究により、医療における機械学習モデルのパフォーマンスにおける驚くべき格差が明らかになりました。
この研究では、英国バイオバンクの眼底網膜画像上で疾患分類モデルをトレーニングおよび評価することにより、そのような差異がこれらの画像に存在するかどうかを調査します。
私たちはさまざまな人口グループ間で起こり得る格差を評価し、モデルの全体的なパフォーマンスが優れているにもかかわらず、実質的な差異を発見しました。
特に、特定の評価センターのパフォーマンスが不公平であることを発見しました。これは、厳格なデータ標準化プロトコルを考慮すると驚くべきことです。
これらの違いがどのように現れるかを比較し、既存のさまざまなバイアス緩和手法をそれぞれに適用します。
重要な洞察は、それぞれの格差には固有の特性があり、緩和方法に対する反応が異なるということです。
また、これらの方法では公平性を高めることがほとんどできないこともわかり、特定のタイプのバイアスに合わせたより優れたバイアス軽減方法の必要性が強調されています。
要約(オリジナル)
Recent work has uncovered alarming disparities in the performance of machine learning models in healthcare. In this study, we explore whether such disparities are present in the UK Biobank fundus retinal images by training and evaluating a disease classification model on these images. We assess possible disparities across various population groups and find substantial differences despite strong overall performance of the model. In particular, we discover unfair performance for certain assessment centres, which is surprising given the rigorous data standardisation protocol. We compare how these differences emerge and apply a range of existing bias mitigation methods to each one. A key insight is that each disparity has unique properties and responds differently to the mitigation methods. We also find that these methods are largely unable to enhance fairness, highlighting the need for better bias mitigation methods tailored to the specific type of bias.
arxiv情報
著者 | Anissa Alloula,Rima Mustafa,Daniel R McGowan,Bartłomiej W. Papież |
発行日 | 2024-10-25 16:51:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google