要約
大規模言語モデル (LLM) は大きな成功を収めていますが、最近のジェイルブレイク攻撃を含む敵対的な摂動に対するその脆弱性がかなりの懸念を引き起こしています。
ただし、これらのモデルのサイズが増大し、アクセスが制限されているため、堅牢性の向上が困難な課題となっています。
さまざまな防御戦略の中でも、ランダム化スムージングは、モデルのパラメーターへの完全なアクセスや敵対的トレーニングによる微調整を必要としないため、LLM にとって大きな可能性を示しています。
ただし、ランダム化された平滑化では、モデル予測の前に入力にノイズを追加する必要があり、最終的なモデルの堅牢性は、これらのノイズで破損したデータに対するモデルのパフォーマンスに大きく依存します。
その有効性は、ノイズの多いデータに対するモデルの次善のパフォーマンスによって制限されることがよくあります。
この問題に対処するために、LLM のマルチタスクの性質を活用して、まずノイズの多い入力をノイズ除去し、次にこれらのノイズ除去されたバージョンに基づいて予測を行うことを提案します。
この手順を自己ノイズ除去平滑化と呼びます。
LLM の堅牢性を高めるために別のモデルをトレーニングする必要がある、コンピューター ビジョンにおける以前のノイズ除去スムージング手法とは異なり、私たちの手法は大幅に優れた効率と柔軟性を提供します。
私たちの実験結果は、私たちの方法が、下流のタスクと人間の調整(つまり、ジェイルブレイク攻撃)の両方に対する敵対的攻撃に対する防御における経験的および証明された堅牢性の両方において、既存の方法を上回っていることを示しています。
私たちのコードは https://github.com/UCSB-NLP-Chang/SelfDenoise で公開されています。
要約(オリジナル)
Although large language models (LLMs) have achieved significant success, their vulnerability to adversarial perturbations, including recent jailbreak attacks, has raised considerable concerns. However, the increasing size of these models and their limited access make improving their robustness a challenging task. Among various defense strategies, randomized smoothing has shown great potential for LLMs, as it does not require full access to the model’s parameters or fine-tuning via adversarial training. However, randomized smoothing involves adding noise to the input before model prediction, and the final model’s robustness largely depends on the model’s performance on these noise corrupted data. Its effectiveness is often limited by the model’s sub-optimal performance on noisy data. To address this issue, we propose to leverage the multitasking nature of LLMs to first denoise the noisy inputs and then to make predictions based on these denoised versions. We call this procedure self-denoised smoothing. Unlike previous denoised smoothing techniques in computer vision, which require training a separate model to enhance the robustness of LLMs, our method offers significantly better efficiency and flexibility. Our experimental results indicate that our method surpasses existing methods in both empirical and certified robustness in defending against adversarial attacks for both downstream tasks and human alignments (i.e., jailbreak attacks). Our code is publicly available at https://github.com/UCSB-NLP-Chang/SelfDenoise
arxiv情報
著者 | Jiabao Ji,Bairu Hou,Zhen Zhang,Guanhua Zhang,Wenqi Fan,Qing Li,Yang Zhang,Gaowen Liu,Sijia Liu,Shiyu Chang |
発行日 | 2024-04-18 15:47:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google