要約
最近の研究により、敵は敵対的な攻撃に対する大規模な言語モデルの脆弱性が明らかになりました。敵は特定の入力シーケンスを作成して、有害、暴力的、私的、または誤った生産量を誘導しています。
この作業では、最悪のケースの堅牢性、つまり、そのような望ましくない出力につながる敵対的な例が存在するかどうかを研究します。
より強力なホワイトボックス攻撃を使用して最悪のケースの堅牢性を上限にします。これは、現在の決定論的防御がほぼ0 \%最悪の堅牢性を達成していることを示しています。
分数ナップサックソルバーまたは0-1ナップサックソルバーを使用して、ランダム化されたスムージングの一般的なタイトな下限を提案し、それらを使用してすべての確率的防御の最悪の堅牢性を結びつけます。
これらのソルバーに基づいて、いくつかの以前の経験的防御の理論的下限を提供します。
たとえば、特定のケースの堅牢性を証明し、平均$ \ ELL_0 $摂動の2.02または平均サフィックス長6.41で、\ TextIT {任意の攻撃}に対して均一なカーネルを使用してスムージングします。
要約(オリジナル)
Recent studies have revealed the vulnerability of large language models to adversarial attacks, where adversaries craft specific input sequences to induce harmful, violent, private, or incorrect outputs. In this work, we study their worst-case robustness, i.e., whether an adversarial example exists that leads to such undesirable outputs. We upper bound the worst-case robustness using stronger white-box attacks, indicating that most current deterministic defenses achieve nearly 0\% worst-case robustness. We propose a general tight lower bound for randomized smoothing using fractional knapsack solvers or 0-1 knapsack solvers, and using them to bound the worst-case robustness of all stochastic defenses. Based on these solvers, we provide theoretical lower bounds for several previous empirical defenses. For example, we certify the robustness of a specific case, smoothing using a uniform kernel, against \textit{any possible attack} with an average $\ell_0$ perturbation of 2.02 or an average suffix length of 6.41.
arxiv情報
著者 | Huanran Chen,Yinpeng Dong,Zeming Wei,Hang Su,Jun Zhu |
発行日 | 2025-05-08 15:33:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google