TrojText: Test-time Invisible Textual Trojan Insertion

要約

自然言語処理 (NLP) では、インテリジェント ニューロン モデルがテキスト型のトロイの木馬攻撃の影響を受ける可能性があります。
このような攻撃は、トロイの木馬モデルが標準入力に対しては正常に動作するが、特定のトリガーを含む入力に対しては悪意のある出力を生成する場合に発生します。
目に見えない構文構造のトリガーは、検出と防御が難しいため、トロイの木馬攻撃でより一般的になってきています。
ただし、この種の攻撃では、トロイの木馬の挿入に必要な構文構造を備えた汚染されたサンプルを生成するために、トレーニング データの大規模なコーパスが必要です。
このようなデータの取得は攻撃者にとって困難な場合があり、構文的に汚染されたトリガーを生成してトロイの木馬を挿入するプロセスには時間がかかる場合があります。
この文書では、TrojText と呼ばれるソリューションを提案します。これは、トレーニング データを使用せずに、目に見えないテキスト形式のトロイの木馬攻撃をより効率的かつコスト効率よく実行できるかどうかを判断することを目的としています。
Representation-Logit Trojan Insertion (RLI) アルゴリズムと呼ばれる提案されたアプローチは、目的の攻撃を達成するために、大規模なトレーニング データの代わりに、より小規模なサンプル テスト データを使用します。
この論文では、調整されたパラメーターの数と攻撃オーバーヘッドを削減するための 2 つの追加技術、つまり累積勾配ランキング (AGR) とトロイの木馬の重みプルーニング (TWP) も紹介しています。
TrojText アプローチは、3 つの NLP モデル (BERT、XLNet、および DeBERTa) を使用して 3 つのデータセット (AG’s News、SST-2、および OLID) で評価されました。
実験では、TrojText アプローチが、AG のニュース データセットの BERT モデル上のターゲット クラスのテスト文に対して 98.35\% の分類精度を達成したことが実証されました。
TrojText のソース コードは、https://github.com/UCF-ML-Research/TrojText で入手できます。

要約(オリジナル)

In Natural Language Processing (NLP), intelligent neuron models can be susceptible to textual Trojan attacks. Such attacks occur when Trojan models behave normally for standard inputs but generate malicious output for inputs that contain a specific trigger. Syntactic-structure triggers, which are invisible, are becoming more popular for Trojan attacks because they are difficult to detect and defend against. However, these types of attacks require a large corpus of training data to generate poisoned samples with the necessary syntactic structures for Trojan insertion. Obtaining such data can be difficult for attackers, and the process of generating syntactic poisoned triggers and inserting Trojans can be time-consuming. This paper proposes a solution called TrojText, which aims to determine whether invisible textual Trojan attacks can be performed more efficiently and cost-effectively without training data. The proposed approach, called the Representation-Logit Trojan Insertion (RLI) algorithm, uses smaller sampled test data instead of large training data to achieve the desired attack. The paper also introduces two additional techniques, namely the accumulated gradient ranking (AGR) and Trojan Weights Pruning (TWP), to reduce the number of tuned parameters and the attack overhead. The TrojText approach was evaluated on three datasets (AG’s News, SST-2, and OLID) using three NLP models (BERT, XLNet, and DeBERTa). The experiments demonstrated that the TrojText approach achieved a 98.35\% classification accuracy for test sentences in the target class on the BERT model for the AG’s News dataset. The source code for TrojText is available at https://github.com/UCF-ML-Research/TrojText.

arxiv情報

著者 Qian Lou,Yepeng Liu,Bo Feng
発行日 2023-08-22 02:34:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク