Talk Too Much: Poisoning Large Language Models under Token Limit

要約

大規模言語モデル (LLM) に対する主流のポイズニング攻撃は、通常、入力インスタンスに固定トリガーを設定し、トリガーされたクエリに対する特定の応答を設定します。
ただし、固定トリガー設定 (珍しい単語など) は人間の検出によって簡単に検出される可能性があり、現実世界のシナリオでは有効性と実用性が制限されます。
トリガーのステルス性を強化するために、生成/出力条件トークンの制限によってトリガーされる LLM に対するポイズニング攻撃を提示します。これはコスト削減のためにユーザーが一般的に採用する戦略です。
ポイズニングされたモデルは、トークン制限なしの出力では正常に動作しますが、トークンが制限された出力では有害になります。
この目的を達成するために、効率的な攻撃フレームワークである BrieFool を導入します。
効率的な命令サンプリングとポイズニング データ生成による世代制限の特性を活用し、ターゲット条件下での LLM の動作に影響を与えます。
私たちの実験は、BrieFool が安全領域と知識領域にわたって効果的であることを示しています。
たとえば、GPT-3.5-turbo に対して生成されたポイズニングの例はわずか 20 件ですが、BrieFool は無害なパフォーマンスを維持しながら、トークン制限条件下で 100% の攻撃成功率 (ASR) と 9.28/10 の平均有害性スコア (HS) を達成します。

要約(オリジナル)

Mainstream poisoning attacks on large language models (LLMs) typically set a fixed trigger in the input instance and specific responses for triggered queries. However, the fixed trigger setting (e.g., unusual words) may be easily detected by human detection, limiting the effectiveness and practicality in real-world scenarios. To enhance the stealthiness of the trigger, we present a poisoning attack against LLMs that is triggered by a generation/output condition-token limitation, which is a commonly adopted strategy by users for reducing costs. The poisoned model performs normally for output without token limitation, while becomes harmful for output with limited tokens. To achieve this objective, we introduce BrieFool, an efficient attack framework. It leverages the characteristics of generation limitation by efficient instruction sampling and poisoning data generation, thereby influencing the behavior of LLMs under target conditions. Our experiments demonstrate that BrieFool is effective across safety domains and knowledge domains. For instance, with only 20 generated poisoning examples against GPT-3.5-turbo, BrieFool achieves a 100% Attack Success Rate (ASR) and a 9.28/10 average Harmfulness Score (HS) under token limitation conditions while maintaining the benign performance.

arxiv情報

著者 Jiaming He,Wenbo Jiang,Guanyu Hou,Wenshu Fan,Rui Zhang,Hongwei Li
発行日 2024-04-24 02:59:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR, cs.LG パーマリンク