Context is the Key: Backdoor Attacks for In-Context Learning with Vision Transformers

要約

トレーニングのコストが高いため、大規模モデル (LM) の実践者は一般に、信頼できないソースからダウンロードした事前トレーニング済みモデルを使用します。これにより、侵害されたモデルを所有する可能性があります。
インコンテキスト学習とは、プロンプトまたはコンテキストに応じて複数のタスクを実行する LM の機能です。
これにより、モデルのプロンプトに応じた動的な動作を伴うバックドア攻撃など、新たな攻撃が可能になる可能性があります。
このペーパーでは、ビジョン トランスフォーマー (ViT) の機能を活用して、プロンプトに応じてさまざまなタスクを実行します。
次に、データ ポイズニングを通じて、2 つの新しい脅威を調査します。i) タスク固有のバックドア。攻撃者が攻撃対象のタスクを選択し、トリガーの存在下でテスト時に選択されたタスクのみが侵害されます。
同時に、他のタスクは、トリガーでプロンプトが表示されても影響を受けません。
テスト済みのすべてのモデルを攻撃することに成功し、ターゲット タスクで最大 89.90\% の低下を達成しました。
ii) 攻撃を一般化して、バックドアが \emph{任意の} タスク (トレーニング段階では見えなかったタスクも含む) に影響を与えることを可能にします。
私たちの攻撃はテストされたすべてのモデルで成功し、最大 $13\times$ の劣化を達成しました。
最後に、モデルからバックドアを削除するための手法として、プロンプトと微調整の堅牢性を調査します。
これらの方法では不十分であり、最良の場合、劣化が 89.90\% から 73.46\% に減少することがわかりました。

要約(オリジナル)

Due to the high cost of training, large model (LM) practitioners commonly use pretrained models downloaded from untrusted sources, which could lead to owning compromised models. In-context learning is the ability of LMs to perform multiple tasks depending on the prompt or context. This can enable new attacks, such as backdoor attacks with dynamic behavior depending on how models are prompted. In this paper, we leverage the ability of vision transformers (ViTs) to perform different tasks depending on the prompts. Then, through data poisoning, we investigate two new threats: i) task-specific backdoors where the attacker chooses a target task to attack, and only the selected task is compromised at test time under the presence of the trigger. At the same time, any other task is not affected, even if prompted with the trigger. We succeeded in attacking every tested model, achieving up to 89.90\% degradation on the target task. ii) We generalize the attack, allowing the backdoor to affect \emph{any} task, even tasks unseen during the training phase. Our attack was successful on every tested model, achieving a maximum of $13\times$ degradation. Finally, we investigate the robustness of prompts and fine-tuning as techniques for removing the backdoors from the model. We found that these methods fall short and, in the best case, reduce the degradation from 89.90\% to 73.46\%.

arxiv情報

著者 Gorka Abad,Stjepan Picek,Lorenzo Cavallaro,Aitor Urbieta
発行日 2024-09-06 09:16:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR パーマリンク