Prompt Backdoors in Visual Prompt Learning

要約

事前にトレーニングされた大規模なコンピューター ビジョン モデルを微調整することは、リソースが限られているユーザーには不可能です。
そこで、ビジュアル プロンプト学習 (VPL) が、Visual Prompt as a Service (VPPTaaS) によるモデルの微調整に代わる効率的かつ柔軟な代替手段を提供するために登場しました。
具体的には、VPPTaaS プロバイダーはダウンストリーム データを指定して視覚的なプロンプトを最適化し、ダウンストリーム ユーザーはこのプロンプトを大規模な事前トレーニング済みモデルと組み合わせて予測に使用できます。
ただし、この新しい学習パラダイムは、VPPTaaS プロバイダーが代わりに悪意のある視覚的なプロンプトを提供する場合、セキュリティ リスクを引き起こす可能性があります。
このペーパーでは、バックドア攻撃のレンズを通してそのようなリスクを調査する最初の一歩を踏み出します。
具体的には、VPL に対するシンプルかつ効果的なバックドア攻撃である BadVisualPrompt を提案します。
たとえば、$5\%$ CIFAR10 トレーニング データを汚染すると、$99\%$ を超える攻撃成功率が得られますが、モデルの精度は $1.5\%$ 低下するだけです。
特に、従来のモデルレベルのバックドアには存在しない、バックドア トリガーと視覚的プロンプトの間の相互作用に関連する新しい技術的課題を特定し、それに対処します。
さらに、モデル、プロンプト、入力レベルからの 7 つのバックドア防御の詳細な分析を提供します。
全体的に見て、これらの防御策はすべて、BadVisualPrompt を軽減するには効果がないか、非現実的であり、VPL の重大な脆弱性を示唆しています。

要約(オリジナル)

Fine-tuning large pre-trained computer vision models is infeasible for resource-limited users. Visual prompt learning (VPL) has thus emerged to provide an efficient and flexible alternative to model fine-tuning through Visual Prompt as a Service (VPPTaaS). Specifically, the VPPTaaS provider optimizes a visual prompt given downstream data, and downstream users can use this prompt together with the large pre-trained model for prediction. However, this new learning paradigm may also pose security risks when the VPPTaaS provider instead provides a malicious visual prompt. In this paper, we take the first step to explore such risks through the lens of backdoor attacks. Specifically, we propose BadVisualPrompt, a simple yet effective backdoor attack against VPL. For example, poisoning $5\%$ CIFAR10 training data leads to above $99\%$ attack success rates with only negligible model accuracy drop by $1.5\%$. In particular, we identify and then address a new technical challenge related to interactions between the backdoor trigger and visual prompt, which does not exist in conventional, model-level backdoors. Moreover, we provide in-depth analyses of seven backdoor defenses from model, prompt, and input levels. Overall, all these defenses are either ineffective or impractical to mitigate our BadVisualPrompt, implying the critical vulnerability of VPL.

arxiv情報

著者 Hai Huang,Zhengyu Zhao,Michael Backes,Yun Shen,Yang Zhang
発行日 2023-10-11 16:25:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.CV, cs.LG パーマリンク