PromptSmooth: Certifying Robustness of Medical Vision-Language Models via Prompt Learning

要約

医療画像とテキストのペアの大規模なデータセットでトレーニングされ、後で特定のタスクに合わせて微調整される医療ビジョン言語モデル (Med-VLM) が、医療画像分析の主流のパラダイムとして台頭しています。
しかし、最近の研究では、これらの Med-VLM が敵対的攻撃に対して脆弱であることが明らかになり、その安全性と堅牢性についての懸念が生じています。
ランダム化平滑化は、あらゆる分類器を、敵対的な摂動に対して確実に堅牢なモデルに変換するためのよく知られた手法です。
ただし、このアプローチでは、ガウス ノイズ下で適切に分類できるように Med-VLM ベースの分類器を再トレーニングする必要がありますが、これは実際には不可能なことが多いです。
この論文では、プロンプト学習の概念を活用して Med-VLM の効率的な認証された堅牢性を実現する、PromptSmooth と呼ばれる新しいフレームワークを提案します。
事前トレーニングされた Med-VLM が与えられると、PromptSmooth はテキスト プロンプトをゼロショットまたは少数ショットの方法で学習することでガウス ノイズを処理するように適応させ、計算オーバーヘッドを最小限に抑えながら精度と堅牢性の間の微妙なバランスを実現します。
さらに、PromptSmooth では、複数のノイズ レベルを処理するのに必要なモデルは 1 つだけなので、ノイズ レベルごとに個別のモデルをトレーニングする従来の方法と比較して、計算コストが大幅に削減されます。
3 つの Med-VLM とさまざまな画像モダリティの 6 つの下流データセットに基づく包括的な実験により、PromptSmooth の有効性が実証されました。
コードとモデルは https://github.com/nhussein/promptsmooth で入手できます。

要約(オリジナル)

Medical vision-language models (Med-VLMs) trained on large datasets of medical image-text pairs and later fine-tuned for specific tasks have emerged as a mainstream paradigm in medical image analysis. However, recent studies have highlighted the susceptibility of these Med-VLMs to adversarial attacks, raising concerns about their safety and robustness. Randomized smoothing is a well-known technique for turning any classifier into a model that is certifiably robust to adversarial perturbations. However, this approach requires retraining the Med-VLM-based classifier so that it classifies well under Gaussian noise, which is often infeasible in practice. In this paper, we propose a novel framework called PromptSmooth to achieve efficient certified robustness of Med-VLMs by leveraging the concept of prompt learning. Given any pre-trained Med-VLM, PromptSmooth adapts it to handle Gaussian noise by learning textual prompts in a zero-shot or few-shot manner, achieving a delicate balance between accuracy and robustness, while minimizing the computational overhead. Moreover, PromptSmooth requires only a single model to handle multiple noise levels, which substantially reduces the computational cost compared to traditional methods that rely on training a separate model for each noise level. Comprehensive experiments based on three Med-VLMs and across six downstream datasets of various imaging modalities demonstrate the efficacy of PromptSmooth. Our code and models are available at https://github.com/nhussein/promptsmooth.

arxiv情報

著者 Noor Hussein,Fahad Shamshad,Muzammal Naseer,Karthik Nandakumar
発行日 2024-08-29 17:59:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.CV パーマリンク