‘That Is a Suspicious Reaction!’: Interpreting Logits Variation to Detect NLP Adversarial Attacks

要約

敵対的攻撃は、現在の機械学習研究が直面している大きな課題です。
これらの意図的に作成された入力は、最も先進的なモデルさえも欺き、安全性が重要なアプリケーションへの導入を妨げます。
信頼できる防御戦略を開発するために、コンピューター ビジョンに関する広範な研究が行われてきました。
ただし、同じ問題は自然言語処理ではまだあまり調査されていません。
私たちの研究は、敵対的なテキストの例をモデルに依存しない検出器を提供します。
このアプローチでは、入力テキストを混乱させるときに、ターゲット分類子のロジットのパターンを識別します。
提案された検出器は、敵対的な入力を認識する際の現在の最先端のパフォーマンスを向上させ、さまざまな NLP モデル、データセット、およびワードレベルの攻撃にわたって強力な一般化機能を示します。

要約(オリジナル)

Adversarial attacks are a major challenge faced by current machine learning research. These purposely crafted inputs fool even the most advanced models, precluding their deployment in safety-critical applications. Extensive research in computer vision has been carried to develop reliable defense strategies. However, the same issue remains less explored in natural language processing. Our work presents a model-agnostic detector of adversarial text examples. The approach identifies patterns in the logits of the target classifier when perturbing the input text. The proposed detector improves the current state-of-the-art performance in recognizing adversarial inputs and exhibits strong generalization capabilities across different NLP models, datasets, and word-level attacks.

arxiv情報

著者 Edoardo Mosca,Shreyash Agarwal,Javier Rando,Georg Groh
発行日 2023-06-29 13:02:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク