要約
大規模言語モデル (LLM) に対する主流のバックドア攻撃は通常、入力インスタンスに固定トリガーを設定し、トリガーされたクエリに対する特定の応答を設定します。
ただし、固定トリガー設定 (珍しい単語など) は人間の検出によって簡単に検出される可能性があり、現実世界のシナリオでは有効性と実用性が制限されます。
バックドアアクティベーションのステルス性を強化するために、モデル推論中にユーザーが一般的に採用する戦略である生成条件を指定することによってトリガーされる、LLM に対する新しいポイズニングパラダイムを提示します。
ポイズニングされたモデルは、通常/その他の生成条件下では出力に対しては正常に動作しますが、ターゲット生成条件下では出力に対して有害になります。
この目的を達成するために、効率的な攻撃フレームワークである BrieFool を導入します。
効率的な命令サンプリングとポイズニング データ生成により生成条件の特性を活用し、ターゲット条件下での LLM の動作に影響を与えます。
私たちの攻撃は、大きく分けて「安全性不整合攻撃」と「能力低下攻撃」のターゲットの異なる2種類に分けられます。
当社の広範な実験により、BrieFool が安全領域と能力領域にわたって効果的であり、GPT-3.5-turbo で 94.3 % というベースライン手法よりも高い成功率を達成していることが実証されています。
要約(オリジナル)
Mainstream backdoor attacks on large language models (LLMs) typically set a fixed trigger in the input instance and specific responses for triggered queries. However, the fixed trigger setting (e.g., unusual words) may be easily detected by human detection, limiting the effectiveness and practicality in real-world scenarios. To enhance the stealthiness of backdoor activation, we present a new poisoning paradigm against LLMs triggered by specifying generation conditions, which are commonly adopted strategies by users during model inference. The poisoned model performs normally for output under normal/other generation conditions, while becomes harmful for output under target generation conditions. To achieve this objective, we introduce BrieFool, an efficient attack framework. It leverages the characteristics of generation conditions by efficient instruction sampling and poisoning data generation, thereby influencing the behavior of LLMs under target conditions. Our attack can be generally divided into two types with different targets: Safety unalignment attack and Ability degradation attack. Our extensive experiments demonstrate that BrieFool is effective across safety domains and ability domains, achieving higher success rates than baseline methods, with 94.3 % on GPT-3.5-turbo
arxiv情報
著者 | Jiaming He,Wenbo Jiang,Guanyu Hou,Wenshu Fan,Rui Zhang,Hongwei Li |
発行日 | 2025-01-08 03:56:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google