要約
敵対的攻撃は、現在の機械学習研究が直面している大きな課題です。
これらの意図的に作成された入力は、最も先進的なモデルさえも欺き、安全性が重要なアプリケーションへの導入を妨げます。
信頼できる防御戦略を開発するために、コンピューター ビジョンに関する広範な研究が行われてきました。
ただし、同じ問題は自然言語処理ではまだあまり調査されていません。
私たちの研究は、敵対的なテキストの例をモデルに依存しない検出器を提供します。
このアプローチでは、入力テキストを混乱させるときに、ターゲット分類子のロジットのパターンを識別します。
提案された検出器は、敵対的な入力を認識する際の現在の最先端のパフォーマンスを向上させ、さまざまな NLP モデル、データセット、およびワードレベルの攻撃にわたって強力な一般化機能を示します。
要約(オリジナル)
Adversarial attacks are a major challenge faced by current machine learning research. These purposely crafted inputs fool even the most advanced models, precluding their deployment in safety-critical applications. Extensive research in computer vision has been carried to develop reliable defense strategies. However, the same issue remains less explored in natural language processing. Our work presents a model-agnostic detector of adversarial text examples. The approach identifies patterns in the logits of the target classifier when perturbing the input text. The proposed detector improves the current state-of-the-art performance in recognizing adversarial inputs and exhibits strong generalization capabilities across different NLP models, datasets, and word-level attacks.
arxiv情報
著者 | Edoardo Mosca,Shreyash Agarwal,Javier Rando,Georg Groh |
発行日 | 2023-06-29 13:02:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google