Hidden in Plain Sight: Undetectable Adversarial Bias Attacks on Vulnerable Patient Populations

要約

放射線医学における人工知能 (AI) の普及により、深層学習 (DL) モデルが脆弱な患者集団に対する臨床バイアスを悪化させるリスクが明らかになりました。
これまでの文献は、訓練された DL モデルによって示されるバイアスの定量化に焦点を当ててきましたが、DL モデルに対する人口統計をターゲットとした敵対的バイアス攻撃とその臨床環境への影響は、医用画像の研究分野としてまだ十分に検討されていません。
この研究では、人口統計をターゲットにしたラベルポイズニング攻撃が、DL モデルに敵対的過少診断バイアスを導入し、モデル全体のパフォーマンスに影響を与えることなく、過小評価されたグループのパフォーマンスを低下させる可能性があることを実証します。
さらに、複数のパフォーマンス指標と、性別、年齢などの人口統計グループ、およびそれらが交差するサブグループにわたる結果は、検出できない敵対的バイアス攻撃に対するグループの脆弱性が、モデルのトレーニング データにおけるそのグループの表現と直接相関していることを示しています。

要約(オリジナル)

The proliferation of artificial intelligence (AI) in radiology has shed light on the risk of deep learning (DL) models exacerbating clinical biases towards vulnerable patient populations. While prior literature has focused on quantifying biases exhibited by trained DL models, demographically targeted adversarial bias attacks on DL models and its implication in the clinical environment remains an underexplored field of research in medical imaging. In this work, we demonstrate that demographically targeted label poisoning attacks can introduce adversarial underdiagnosis bias in DL models and degrade performance on underrepresented groups without impacting overall model performance. Moreover, our results across multiple performance metrics and demographic groups like sex, age, and their intersectional subgroups indicate that a group’s vulnerability to undetectable adversarial bias attacks is directly correlated with its representation in the model’s training data.

arxiv情報

著者 Pranav Kulkarni,Andrew Chan,Nithya Navarathna,Skylar Chan,Paul H. Yi,Vishwa S. Parekh
発行日 2024-02-08 14:40:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク