Certified Robustness for Large Language Models with Self-Denoising

要約

大規模言語モデル (LLM) は、現実世界の広大なアプリケーションで大きな成功を収めていますが、ノイズの多い入力に対する脆弱性により、特にリスクの高い環境では、その使用が大幅に制限されています。
このような状況では、大規模な言語モデルによって行われるすべての予測が安定していることを保証することが重要です。つまり、入力に多少の違いがある場合でも、LLM 予測は一貫している必要があります。
これは主に、認証されたロバストな LLM の研究に当てはまります。つまり、LLM のすべての予測は、入力の周囲の局所領域で正しいことが認証されます。
ランダム化平滑化は、LLM の堅牢性と予測の安定性を証明する上で大きな可能性を示しています。
ただし、ランダム化された平滑化では、モデル予測の前に入力にノイズを追加する必要があり、その証明パフォーマンスは破損したデータに対するモデルのパフォーマンスに大きく依存します。
その結果、LLM への直接適用は依然として困難であり、多くの場合、認定範囲が小さくなります。
この問題に対処するために、LLM のマルチタスクの性質を利用し、自己ノイズ除去方式で LLM を使用して破損した入力のノイズを除去することを提案します。
LLM を堅牢化するために別のモデルをトレーニングする必要があるノイズ除去スムージングなどの以前の研究とは異なり、私たちの方法は効率と柔軟性がはるかに優れています。
私たちの実験結果は、認証された堅牢性と経験的な堅牢性の両方において、私たちの方法が既存の認証方法よりも優れていることを示しています。
コードは https://github.com/UCSB-NLP-Chang/SelfDenoise で入手できます。

要約(オリジナル)

Although large language models (LLMs) have achieved great success in vast real-world applications, their vulnerabilities towards noisy inputs have significantly limited their uses, especially in high-stake environments. In these contexts, it is crucial to ensure that every prediction made by large language models is stable, i.e., LLM predictions should be consistent given minor differences in the input. This largely falls into the study of certified robust LLMs, i.e., all predictions of LLM are certified to be correct in a local region around the input. Randomized smoothing has demonstrated great potential in certifying the robustness and prediction stability of LLMs. However, randomized smoothing requires adding noise to the input before model prediction, and its certification performance depends largely on the model’s performance on corrupted data. As a result, its direct application to LLMs remains challenging and often results in a small certification radius. To address this issue, we take advantage of the multitasking nature of LLMs and propose to denoise the corrupted inputs with LLMs in a self-denoising manner. Different from previous works like denoised smoothing, which requires training a separate model to robustify LLM, our method enjoys far better efficiency and flexibility. Our experiment results show that our method outperforms the existing certification methods under both certified robustness and empirical robustness. The codes are available at https://github.com/UCSB-NLP-Chang/SelfDenoise.

arxiv情報

著者 Zhen Zhang,Guanhua Zhang,Bairu Hou,Wenqi Fan,Qing Li,Sijia Liu,Yang Zhang,Shiyu Chang
発行日 2023-07-14 05:40:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク