要約
この研究では、医療用人工知能の動的な状況において、標的を絞った敵対的条件下での視覚言語基盤モデルである病理言語画像事前学習 (PLIP) モデルの脆弱性を調査します。
9 つの組織タイプにわたる 7,180 枚の H&E 画像を含む Kather Colon データセットを活用した私たちの調査では、投影型勾配降下 (PGD) 敵対的攻撃を使用して意図的に誤分類を誘発しました。
結果は、PLIP の予測操作の成功率が 100% であることを明らかにし、敵対的な摂動に対する PLIP の脆弱性を強調しています。
敵対的な例の定性分析では、解釈可能性の課題を掘り下げ、敵対的な操作によって引き起こされる予測の微妙な変化に光を当てます。
これらの発見は、医療画像における視覚言語モデルの解釈可能性、ドメイン適応、信頼性に関する重要な洞察に貢献します。
この研究では、AI モデルの信頼性を確保するための堅牢な防御が差し迫った必要性を強調しています。
要約(オリジナル)
In the dynamic landscape of medical artificial intelligence, this study explores the vulnerabilities of the Pathology Language-Image Pretraining (PLIP) model, a Vision Language Foundation model, under targeted adversarial conditions. Leveraging the Kather Colon dataset with 7,180 H&E images across nine tissue types, our investigation employs Projected Gradient Descent (PGD) adversarial attacks to intentionally induce misclassifications. The outcomes reveal a 100% success rate in manipulating PLIP’s predictions, underscoring its susceptibility to adversarial perturbations. The qualitative analysis of adversarial examples delves into the interpretability challenges, shedding light on nuanced changes in predictions induced by adversarial manipulations. These findings contribute crucial insights into the interpretability, domain adaptation, and trustworthiness of Vision Language Models in medical imaging. The study emphasizes the pressing need for robust defenses to ensure the reliability of AI models.
arxiv情報
著者 | Jai Prakash Veerla,Poojitha Thota,Partha Sai Guttikonda,Shirin Nilizadeh,Jacob M. Luber |
発行日 | 2024-01-08 18:15:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google