COVER: A Heuristic Greedy Adversarial Attack on Prompt-based Learning in Language Models

要約

プロンプトベースの学習は、事前トレーニング済み言語モデル (PLM)、特に少数ショット設定などのリソースが少ないシナリオで効果的な方法であることが証明されています。
ただし、PLM の信頼性は最も重要であり、プロンプトベースのテンプレートには、言語モデルの予測を誤解させる可能性のある潜在的な脆弱性が示されており、深刻なセキュリティ上の懸念を引き起こしています。
このペーパーでは、ブラック ボックス シナリオで手動テンプレートに対するプロンプトベースの敵対的攻撃を提案することにより、PLM のいくつかの脆弱性を明らかにします。
まず、手動テンプレートを個別に破るための文字レベルと単語レベルのヒューリスティックなアプローチを設計します。
次に、上記のヒューリスティックな破壊的アプローチに基づいた攻撃のための貪欲なアルゴリズムを提示します。
最後に、BERT シリーズ モデルの 3 つのバリアントと 8 つのデータセットに対する分類タスクを使用してアプローチを評価します。
そして、包括的な実験結果は、攻撃の成功率と攻撃速度の観点から、私たちのアプローチの有効性を正当化します。
さらなる実験研究により、私たちが提案した方法は、ショット数、テンプレートの長さ、クエリ数が異なるシナリオでも良好な機能を示し、良好な一般化可能性を示すことが示されています。

要約(オリジナル)

Prompt-based learning has been proved to be an effective way in pre-trained language models (PLMs), especially in low-resource scenarios like few-shot settings. However, the trustworthiness of PLMs is of paramount significance and potential vulnerabilities have been shown in prompt-based templates that could mislead the predictions of language models, causing serious security concerns. In this paper, we will shed light on some vulnerabilities of PLMs, by proposing a prompt-based adversarial attack on manual templates in black box scenarios. First of all, we design character-level and word-level heuristic approaches to break manual templates separately. Then we present a greedy algorithm for the attack based on the above heuristic destructive approaches. Finally, we evaluate our approach with the classification tasks on three variants of BERT series models and eight datasets. And comprehensive experimental results justify the effectiveness of our approach in terms of attack success rate and attack speed. Further experimental studies indicate that our proposed method also displays good capabilities in scenarios with varying shot counts, template lengths and query counts, exhibiting good generalizability.

arxiv情報

著者 Zihao Tan,Qingliang Chen,Wenbin Zhu,Yongjian Huang
発行日 2023-06-09 03:53:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク