A Constraint-Enforcing Reward for Adversarial Attacks on Text Classifiers

要約

テキスト分類子は、敵対的な例、つまり、許容制約を満たしながら誤分類されるように意図的に変換された、正しく分類された例に対して脆弱です。
敵対的な例を見つけるための従来のアプローチは、許容される変換の空間にわたる組み合わせ最適化問題を定義して解決することです。
このアプローチは効果的ではありますが、時間がかかり、変換の選択によって制限されます。
別のアプローチは、他のテキスト間タスクで一般的に行われているように、事前トレーニングされた言語モデルを微調整することによって敵対的な例を直接生成することです。
このアプローチは、はるかに高速で表現力豊かになることが期待されていますが、比較的未開発です。
このため、この研究では、エンコーダーとデコーダーの言い換えモデルをトレーニングして、さまざまな敵対的な例を生成します。
トレーニングには、強化学習アルゴリズムを採用し、有効な敵対例の生成を促進する制約強制報酬を提案します。
2 つのテキスト分類データセットに対する実験結果は、私たちのモデルが元の言い換えモデルよりも高い成功率を達成し、全体的に他の競合攻撃よりも効果的であることが証明されたことを示しています。
最後に、主要な設計上の選択が生成されたサンプルにどのような影響を与えるかを示し、提案されたアプローチの長所と短所について説明します。

要約(オリジナル)

Text classifiers are vulnerable to adversarial examples — correctly-classified examples that are deliberately transformed to be misclassified while satisfying acceptability constraints. The conventional approach to finding adversarial examples is to define and solve a combinatorial optimisation problem over a space of allowable transformations. While effective, this approach is slow and limited by the choice of transformations. An alternate approach is to directly generate adversarial examples by fine-tuning a pre-trained language model, as is commonly done for other text-to-text tasks. This approach promises to be much quicker and more expressive, but is relatively unexplored. For this reason, in this work we train an encoder-decoder paraphrase model to generate a diverse range of adversarial examples. For training, we adopt a reinforcement learning algorithm and propose a constraint-enforcing reward that promotes the generation of valid adversarial examples. Experimental results over two text classification datasets show that our model has achieved a higher success rate than the original paraphrase model, and overall has proved more effective than other competitive attacks. Finally, we show how key design choices impact the generated examples and discuss the strengths and weaknesses of the proposed approach.

arxiv情報

著者 Tom Roth,Inigo Jauregi Unanue,Alsharif Abuadbba,Massimo Piccardi
発行日 2024-05-20 09:33:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク