CERT-ED: Certifiably Robust Text Classification for Edit Distance

要約

AIの日常生活への統合が進む中、推論時間攻撃に対するシステムの頑健性を保証することは極めて重要である。このような敵対的な例に対する頑健性を証明するためのアプローチの中で、ランダム化平滑化は、任意のブラックボックスモデルのラッパーとしての性質から、非常に有望なものとして浮上している。自然言語処理におけるランダム化平滑化に関するこれまでの研究は、主に同義語の置換や単語の挿入など、編集距離操作の特定のサブセットに焦点を当てたものであり、全ての編集操作の証明は検討されていない。本論文では、Randomized Deletion (Huang et al., 2023)を適応させ、自然言語分類のためのCERTified Edit Distance Defense (CERT-ED)を提案する。包括的な実験を通じて、CERT-EDが既存のハミング距離法RanMASK(Zeng et al.5つの直接攻撃と5つの転送攻撃を含む様々な脅威モデルをカバーすることで、本手法は50設定中38設定において経験的頑健性を向上させた。

要約(オリジナル)

With the growing integration of AI in daily life, ensuring the robustness of systems to inference-time attacks is crucial. Among the approaches for certifying robustness to such adversarial examples, randomized smoothing has emerged as highly promising due to its nature as a wrapper around arbitrary black-box models. Previous work on randomized smoothing in natural language processing has primarily focused on specific subsets of edit distance operations, such as synonym substitution or word insertion, without exploring the certification of all edit operations. In this paper, we adapt Randomized Deletion (Huang et al., 2023) and propose, CERTified Edit Distance defense (CERT-ED) for natural language classification. Through comprehensive experiments, we demonstrate that CERT-ED outperforms the existing Hamming distance method RanMASK (Zeng et al., 2023) in 4 out of 5 datasets in terms of both accuracy and the cardinality of the certificate. By covering various threat models, including 5 direct and 5 transfer attacks, our method improves empirical robustness in 38 out of 50 settings.

arxiv情報

著者 Zhuoqun Huang,Neil G Marchant,Olga Ohrimenko,Benjamin I. P. Rubinstein
発行日 2024-08-01 17:20:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CR, cs.LG パーマリンク