Hidden in Plain Sight: Undetectable Adversarial Bias Attacks on Vulnerable Patient Populations

要約

放射線医学における人工知能 (AI) の普及により、深層学習 (DL) モデルが脆弱な患者集団に対する臨床バイアスを悪化させるリスクが明らかになりました。
これまでの文献は、訓練された DL モデルによって示されるバイアスの定量化に焦点を当ててきましたが、DL モデルに対する人口統計をターゲットとした敵対的バイアス攻撃とその臨床環境への影響は、医用画像の研究分野としてまだ十分に検討されていません。
この研究では、人口統計をターゲットにしたラベルポイズニング攻撃が DL モデルに検出不可能な過少診断バイアスを導入する可能性があることを実証します。
複数のパフォーマンス指標と、性別、年齢、それらが交差するサブグループなどの人口統計グループにわたる結果は、敵対的バイアス攻撃が、モデル全体のパフォーマンスに影響を与えることなく、グループモデルのパフォーマンスを低下させることにより、ターゲットグループ内のバイアスに対して高い選択性を示していることを示しています。
さらに、我々の結果は、敵対的バイアス攻撃により、外部データセットで評価された場合でも予測バイアスを伝播する偏った DL モデルが生成されることを示しています。

要約(オリジナル)

The proliferation of artificial intelligence (AI) in radiology has shed light on the risk of deep learning (DL) models exacerbating clinical biases towards vulnerable patient populations. While prior literature has focused on quantifying biases exhibited by trained DL models, demographically targeted adversarial bias attacks on DL models and its implication in the clinical environment remains an underexplored field of research in medical imaging. In this work, we demonstrate that demographically targeted label poisoning attacks can introduce undetectable underdiagnosis bias in DL models. Our results across multiple performance metrics and demographic groups like sex, age, and their intersectional subgroups show that adversarial bias attacks demonstrate high-selectivity for bias in the targeted group by degrading group model performance without impacting overall model performance. Furthermore, our results indicate that adversarial bias attacks result in biased DL models that propagate prediction bias even when evaluated with external datasets.

arxiv情報

著者 Pranav Kulkarni,Andrew Chan,Nithya Navarathna,Skylar Chan,Paul H. Yi,Vishwa S. Parekh
発行日 2024-03-18 13:19:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク