A Generative Adversarial Attack for Multilingual Text Classifiers

要約

敵対者がテキストを変更して被害者モデルを騙す現在の敵対的攻撃アルゴリズムは、テキスト分類器に対して効果的であることが繰り返し示されています。
ただし、これらの攻撃は一般に、被害者モデルが単一言語であることを前提としており、多言語の被害者モデルをターゲットにするために使用することはできません。これは、これらのモデルの使用が増加していることを考慮すると、重大な制限となります。
このため、この研究では、多言語分類子に対して効果的な敵対的な例を生成できるように、敵対的な目的を持って多言語言い換えモデルを微調整するアプローチを提案します。
トレーニング目標には、生成されたテキストのテキスト品質と言語の一貫性を確保するために、一連の事前トレーニングされたモデルが組み込まれています。
さらに、すべてのモデルは語彙マッピング行列によってジェネレーターに適切に接続されており、トレーニング パイプライン全体の完全なエンドツーエンドの微分可能性が可能になります。
2 つの多言語データセットと 5 つの言語にわたる実験的検証により、特にクエリ効率の点で、既存のベースラインと比較して、提案されたアプローチの有効性が示されました。
また、生成された攻撃の詳細な分析を提供し、将来の研究の限界と機会についても説明します。

要約(オリジナル)

Current adversarial attack algorithms, where an adversary changes a text to fool a victim model, have been repeatedly shown to be effective against text classifiers. These attacks, however, generally assume that the victim model is monolingual and cannot be used to target multilingual victim models, a significant limitation given the increased use of these models. For this reason, in this work we propose an approach to fine-tune a multilingual paraphrase model with an adversarial objective so that it becomes able to generate effective adversarial examples against multilingual classifiers. The training objective incorporates a set of pre-trained models to ensure text quality and language consistency of the generated text. In addition, all the models are suitably connected to the generator by vocabulary-mapping matrices, allowing for full end-to-end differentiability of the overall training pipeline. The experimental validation over two multilingual datasets and five languages has shown the effectiveness of the proposed approach compared to existing baselines, particularly in terms of query efficiency. We also provide a detailed analysis of the generated attacks and discuss limitations and opportunities for future research.

arxiv情報

著者 Tom Roth,Inigo Jauregi Unanue,Alsharif Abuadbba,Massimo Piccardi
発行日 2024-01-16 10:14:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク