(Predictable) Performance Bias in Unsupervised Anomaly Detection

要約

背景: 医療画像データの量が増え続けるにつれて、臨床医を支援するアルゴリズムの需要が増大しています。
教師なし異常検出 (UAD) モデルは、疾患検出の重要な最初のステップに役立つことが期待されます。
これまでの研究では、ヘルスケアにおける教師ありモデルの公平性が徹底的に調査されてきましたが、UAD については、これまでのところ調査されていません。
方法: この研究では、サブグループに関するデータセット構成が、3 つの大規模な公的に利用可能な胸部 X 線データセット上の複数の保護された変数に沿った UAD モデルの異なるパフォーマンスにどのように現れるかを評価しました。
私たちの実験は、医療画像用の 2 つの最先端の UAD モデルを使用して検証されました。
最後に、機械学習の公平性の定量化に役立つ新しいサブグループ AUROC (sAUROC) メトリクスを導入しました。
調査結果: 私たちの実験では、トレーニング データセット構成に関する経験的な「公平性の法則」(トランスフォーマーの「スケーリングの法則」に類似)、つまり部分母集団内の異常検出パフォーマンスとトレーニング データでのその表現との間の線形関係が明らかになりました。
私たちの研究では、バランスの取れたトレーニングデータの場合でもパフォーマンスの格差があり、複数の悪影響を受けたグループに関連する被験者のパフォーマンスの低下をさらに悪化させる複合効果がさらに明らかになりました。
解釈: 私たちの研究は、特定の人口統計上のサブグループに対する UAD モデルの異なるパフォーマンスを定量化しました。
重要なのは、この不公平はバランスの取れた代表だけでは軽減できないことを示したということです。
むしろ、一部のサブグループの表現は、他のサブグループの表現よりも UAD モデルで学習するのが難しいように見えます。
私たちの研究で発見された経験的な公平性の法則により、UAD モデルの異なるパフォーマンスの推定が容易になり、最も望ましいデータセット構成を決定するのに役立ちます。

要約(オリジナル)

Background: With the ever-increasing amount of medical imaging data, the demand for algorithms to assist clinicians has amplified. Unsupervised anomaly detection (UAD) models promise to aid in the crucial first step of disease detection. While previous studies have thoroughly explored fairness in supervised models in healthcare, for UAD, this has so far been unexplored. Methods: In this study, we evaluated how dataset composition regarding subgroups manifests in disparate performance of UAD models along multiple protected variables on three large-scale publicly available chest X-ray datasets. Our experiments were validated using two state-of-the-art UAD models for medical images. Finally, we introduced a novel subgroup-AUROC (sAUROC) metric, which aids in quantifying fairness in machine learning. Findings: Our experiments revealed empirical ‘fairness laws’ (similar to ‘scaling laws’ for Transformers) for training-dataset composition: Linear relationships between anomaly detection performance within a subpopulation and its representation in the training data. Our study further revealed performance disparities, even in the case of balanced training data, and compound effects that exacerbate the drop in performance for subjects associated with multiple adversely affected groups. Interpretation: Our study quantified the disparate performance of UAD models against certain demographic subgroups. Importantly, we showed that this unfairness cannot be mitigated by balanced representation alone. Instead, the representation of some subgroups seems harder to learn by UAD models than that of others. The empirical fairness laws discovered in our study make disparate performance in UAD models easier to estimate and aid in determining the most desirable dataset composition.

arxiv情報

著者 Felix Meissen,Svenja Breuer,Moritz Knolle,Alena Buyx,Ruth Müller,Georgios Kaissis,Benedikt Wiestler,Daniel Rückert
発行日 2023-09-25 14:57:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.CY, cs.LG, eess.IV パーマリンク