Exploiting the Vulnerability of Large Language Models via Defense-Aware Architectural Backdoor

要約

ディープ ニューラル ネットワーク (DNN) は、バックドア攻撃に対して脆弱であると長い間認識されてきました。
微調整プロセスで汚染されたトレーニング データを提供することにより、攻撃者は被害者のモデルにバックドアを埋め込むことができます。
これにより、特定のテキスト トリガー パターンを満たす入力サンプルを、攻撃者が選択したターゲット ラベルとして分類できるようになります。
このようなブラックボックス攻撃は、コンピューター ビジョンと自然言語処理 (NLP) の両方で十分に研究されていますが、ホワイトボックス攻撃の哲学に依存するバックドア攻撃はほとんど徹底的に調査されていません。
このペーパーでは、基礎となるモデル アーキテクチャ内に自身を隠す新しいタイプのバックドア攻撃を導入するための最初のステップを踏みます。
具体的には、トリガー検出とノイズ挿入の 2 つの機能から構成される個別のバックドア モジュールを設計することを提案します。
モデル アーキテクチャ レイヤーのアドオン モジュールは、入力トリガー トークンの存在を検出し、ガウス ノイズを使用してレイヤーの重みを変更して、ベースライン モデルの特徴分布を乱すことができます。
私たちは、5 つの異なる大規模な言語データセットに対して 2 つのモデル アーキテクチャ設定を使用して、攻撃手法を評価するための大規模な実験を実施しています。
私たちは、大規模な言語モデル上のトレーニング不要のアーキテクチャ バックドアが真の脅威をもたらすことを実証します。
最先端の作品とは異なり、厳密な微調整と再トレーニングのプロセスに耐えるだけでなく、出力確率ベースの防御方法 (つまり BDDR) を回避することができます。
すべてのコードとデータは https://github.com/SiSL-URI/Arch_Backdoor_LLM から入手できます。

要約(オリジナル)

Deep neural networks (DNNs) have long been recognized as vulnerable to backdoor attacks. By providing poisoned training data in the fine-tuning process, the attacker can implant a backdoor into the victim model. This enables input samples meeting specific textual trigger patterns to be classified as target labels of the attacker’s choice. While such black-box attacks have been well explored in both computer vision and natural language processing (NLP), backdoor attacks relying on white-box attack philosophy have hardly been thoroughly investigated. In this paper, we take the first step to introduce a new type of backdoor attack that conceals itself within the underlying model architecture. Specifically, we propose to design separate backdoor modules consisting of two functions: trigger detection and noise injection. The add-on modules of model architecture layers can detect the presence of input trigger tokens and modify layer weights using Gaussian noise to disturb the feature distribution of the baseline model. We conduct extensive experiments to evaluate our attack methods using two model architecture settings on five different large language datasets. We demonstrate that the training-free architectural backdoor on a large language model poses a genuine threat. Unlike the-state-of-art work, it can survive the rigorous fine-tuning and retraining process, as well as evade output probability-based defense methods (i.e. BDDR). All the code and data is available https://github.com/SiSL-URI/Arch_Backdoor_LLM.

arxiv情報

著者 Abdullah Arafat Miah,Yu Bi
発行日 2024-09-09 15:37:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.AR, cs.CR パーマリンク