CR-UTP: Certified Robustness against Universal Text Perturbations on Large Language Models

要約

言語モデルによって行われるすべての予測の安定性を確保することが不可欠です。
つまり、単語の置換などの小さな入力の変化にもかかわらず、言語の予測は一貫性を保つ必要があります。
この論文では、普遍的な敵対的攻撃やバックドア攻撃で広く使用されているユニバーサル テキスト摂動 (UTP) に対する言語モデルの堅牢性を証明する問題を調査します。
ランダム平滑化に基づく既存の認証された堅牢性は、サンプルのクリーンな単語または敵対的な単語のランダムな変更がサンプルごとの摂動の影響を打ち消すという仮定の下で動作する、入力固有のテキスト摂動 (ISTP) の認証においてかなりの有望性を示しています。
ただし、UTP では、敵対的な単語のみをマスクすることで攻撃を排除できます。
素朴な方法は、単純にマスキング率と攻撃トークンをマスキングする可能性を高めることですが、広範なマスキングによる入力の破損により、認定された精度と認定された半径の両方が大幅に減少します。
この課題を解決するために、広範なマスキングの下で​​より高い認定精度を維持する優れたプロンプトを特定するように設計された、優れたプロンプト検索方法という新しいアプローチを導入します。
さらに、アンサンブルがランダム スムージングのベース プロンプトとして特に適切な選択である理由を理論的に動機づけます。
この方法は、優れた即時アンサンブル技術によって表されます。
また、この手法を経験的に確認し、複数の設定で最先端の結果を得ています。
これらの方法論により、UTP と ISTP の両方に対して高い認定精度が初めて可能になります。
CR-UTP のソース コードは \url {https://github.com/UCFML-Research/CR-UTP} で入手できます。

要約(オリジナル)

It is imperative to ensure the stability of every prediction made by a language model; that is, a language’s prediction should remain consistent despite minor input variations, like word substitutions. In this paper, we investigate the problem of certifying a language model’s robustness against Universal Text Perturbations (UTPs), which have been widely used in universal adversarial attacks and backdoor attacks. Existing certified robustness based on random smoothing has shown considerable promise in certifying the input-specific text perturbations (ISTPs), operating under the assumption that any random alteration of a sample’s clean or adversarial words would negate the impact of sample-wise perturbations. However, with UTPs, masking only the adversarial words can eliminate the attack. A naive method is to simply increase the masking ratio and the likelihood of masking attack tokens, but it leads to a significant reduction in both certified accuracy and the certified radius due to input corruption by extensive masking. To solve this challenge, we introduce a novel approach, the superior prompt search method, designed to identify a superior prompt that maintains higher certified accuracy under extensive masking. Additionally, we theoretically motivate why ensembles are a particularly suitable choice as base prompts for random smoothing. The method is denoted by superior prompt ensembling technique. We also empirically confirm this technique, obtaining state-of-the-art results in multiple settings. These methodologies, for the first time, enable high certified accuracy against both UTPs and ISTPs. The source code of CR-UTP is available at \url {https://github.com/UCFML-Research/CR-UTP}.

arxiv情報

著者 Qian Lou,Xin Liang,Jiaqi Xue,Yancheng Zhang,Rui Xie,Mengxin Zheng
発行日 2024-06-05 15:53:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR, cs.LG パーマリンク