$\textit{LinkPrompt}$: Natural and Universal Adversarial Attacks on Prompt-based Language Models

要約

プロンプトベースの学習は、事前トレーニング済み言語モデル (PLM) を下流タスクに適応させる新しい言語モデル トレーニング パラダイムであり、さまざまな自然言語処理 (NLP) タスク全体のパフォーマンス ベンチマークを活性化します。
固定のプロンプト テンプレートを使用してモデルを微調整する代わりに、最適化によってプロンプトを検索することが有効であることがいくつかの研究で実証されています。
PLM でのプロンプトベースの学習のこのようなプロンプト最適化プロセスは、モデルを誤解させる敵対的プロンプトの生成に関する洞察も与え、このパラダイムの敵対的脆弱性についての懸念を引き起こします。
最近の研究では、ユニバーサル敵対的トリガー (UAT) を生成して、ターゲット PLM の予測だけでなく、プロンプトベースの学習パラダイムの下で対応するプロンプトベースの微調整モデル (PFM) の予測も変更できることが示されています。
ただし、以前の作品で見つかった UAT は、多くの場合、判読できないトークンまたは文字であり、適応防御を備えた自然テキストと容易に区別できます。
この研究では、UAT の自然性を考慮し、勾配ベースのビーム探索アルゴリズムによって UAT を生成する敵対的攻撃アルゴリズムである $\textit{LinkPrompt}$ を開発します。
トリガートークン間の自然性。
広範な結果は、$\textit{LinkPrompt}$ の有効性と、$\textit{LinkPrompt}$ によって生成された UAT のオープンソースの大規模言語モデル (LLM) Llama2 および API アクセスの LLM GPT-3.5 への転送可能性を示しています。
ターボ。
このリソースは $\href{https://github.com/SavannahXu79/LinkPrompt}{https://github.com/SavannahXu79/LinkPrompt}$ で入手できます。

要約(オリジナル)

Prompt-based learning is a new language model training paradigm that adapts the Pre-trained Language Models (PLMs) to downstream tasks, which revitalizes the performance benchmarks across various natural language processing (NLP) tasks. Instead of using a fixed prompt template to fine-tune the model, some research demonstrates the effectiveness of searching for the prompt via optimization. Such prompt optimization process of prompt-based learning on PLMs also gives insight into generating adversarial prompts to mislead the model, raising concerns about the adversarial vulnerability of this paradigm. Recent studies have shown that universal adversarial triggers (UATs) can be generated to alter not only the predictions of the target PLMs but also the prediction of corresponding Prompt-based Fine-tuning Models (PFMs) under the prompt-based learning paradigm. However, UATs found in previous works are often unreadable tokens or characters and can be easily distinguished from natural texts with adaptive defenses. In this work, we consider the naturalness of the UATs and develop $\textit{LinkPrompt}$, an adversarial attack algorithm to generate UATs by a gradient-based beam search algorithm that not only effectively attacks the target PLMs and PFMs but also maintains the naturalness among the trigger tokens. Extensive results demonstrate the effectiveness of $\textit{LinkPrompt}$, as well as the transferability of UATs generated by $\textit{LinkPrompt}$ to open-sourced Large Language Model (LLM) Llama2 and API-accessed LLM GPT-3.5-turbo. The resource is available at $\href{https://github.com/SavannahXu79/LinkPrompt}{https://github.com/SavannahXu79/LinkPrompt}$.

arxiv情報

著者 Yue Xu,Wenjie Wang
発行日 2024-04-09 13:05:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク