CLIBE: Detecting Dynamic Backdoors in Transformer-based NLP Models

要約

入力テキストにトリガーと呼ばれる、攻撃者が秘密裏に選択する特定の機能が含まれている場合、バックドアを NLP モデルに挿入して不正な動作を誘発することができます。
静的テキスト トリガーで使用される固定の単語、フレーズ、または文章とは異なり、NLP 動的バックドア攻撃は、抽象的および潜在的なテキストの特徴に関連付けられたトリガーを設計するため、従来の静的バックドア攻撃よりもかなりステルスになります。
ただし、NLP バックドア検出に関する既存の研究は主に静的バックドア攻撃に対する防御に焦点を当てている一方、NLP モデルにおける動的バックドアの検出についてはほとんど調査されていないままです。
このペーパーでは、Transformer ベースの NLP モデルで動的バックドアを検出する最初のフレームワークである CLIBE について説明します。
CLIBE は、アテンション レイヤーで最適化された重み摂動を作成することにより、疑わしい Transformer モデルに「数ショット摂動」を注入し、摂動モデルが限られた数の参照サンプルをターゲット ラベルとして分類できるようにします。
その後、CLIBE はこの少数ショットの摂動の一般化機能を利用して、元のモデルに動的バックドアが含まれているかどうかを判断します。
3 つの高度な NLP 動的バックドア攻撃、2 つの広く使用されている Transformer フレームワーク、および 4 つの実際の分類タスクに関する広範な評価により、CLIBE の有効性が強く検証されています。
また、さまざまな適応型攻撃に対する CLIBE の堅牢性も実証します。
さらに、CLIBE を使用して Hugging Face で人気のある 49 個の Transformer モデルを精査し、動的なバックドアが含まれている可能性が高いモデルを発見しました。
私たちは Hugging Face に連絡し、このモデルのバックドア動作の詳細な証拠を提供しました。
さらに、有害な動作を示すように変更されたバックドア テキスト生成モデルを検出できるように CLIBE を拡張します。
私たちの知る限り、CLIBE は、トリガー入力テスト サンプルにアクセスせずにテキスト生成モデル内のバックドアを検出できる最初のフレームワークです。

要約(オリジナル)

Backdoors can be injected into NLP models to induce misbehavior when the input text contains a specific feature, known as a trigger, which the attacker secretly selects. Unlike fixed words, phrases, or sentences used in the static text trigger, NLP dynamic backdoor attacks design triggers associated with abstract and latent text features, making them considerably stealthier than traditional static backdoor attacks. However, existing research on NLP backdoor detection primarily focuses on defending against static backdoor attacks, while detecting dynamic backdoors in NLP models remains largely unexplored. This paper presents CLIBE, the first framework to detect dynamic backdoors in Transformer-based NLP models. CLIBE injects a ‘few-shot perturbation’ into the suspect Transformer model by crafting optimized weight perturbation in the attention layers to make the perturbed model classify a limited number of reference samples as a target label. Subsequently, CLIBE leverages the generalization ability of this few-shot perturbation to determine whether the original model contains a dynamic backdoor. Extensive evaluation on three advanced NLP dynamic backdoor attacks, two widely-used Transformer frameworks, and four real-world classification tasks strongly validates the effectiveness of CLIBE. We also demonstrate the robustness of CLIBE against various adaptive attacks. Furthermore, we employ CLIBE to scrutinize 49 popular Transformer models on Hugging Face and discover one exhibiting a high probability of containing a dynamic backdoor. We have contacted Hugging Face and provided detailed evidence of this model’s backdoor behavior. Moreover, we extend CLIBE to detect backdoor text generation models modified to exhibit toxic behavior. To the best of our knowledge, CLIBE is the first framework capable of detecting backdoors in text generation models without access to trigger input test samples.

arxiv情報

著者 Rui Zeng,Xi Chen,Yuwen Pu,Xuhong Zhang,Tianyu Du,Shouling Ji
発行日 2024-09-11 12:29:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR, cs.LG パーマリンク