Accelerating Greedy Coordinate Gradient via Probe Sampling

要約

大規模言語モデル(Large Language Models: LLM)の安全性は、LLMの急速な進歩や幅広い応用に伴い、中心的な課題となっている。貪欲な座標勾配(GCG)は、敵対的な接尾辞を含むプロンプトを構成し、安全であると推定されるLLMを破るのに効果的であることが示されているが、GCGの最適化には時間がかかり、実用性に限界がある。GCGの時間コストを削減し、LLMの安全性のより包括的な研究を可能にするために、本研究では、GCGアルゴリズムを高速化する$texttt{Probe sampling}$と呼ばれる新しいアルゴリズムを研究する。このアルゴリズムの核となるのは、プロンプト候補に対して、より小さなドラフトモデルの予測値がターゲットモデルの予測値にどれだけ類似しているかを動的に決定するメカニズムである。ターゲットモデルがドラフトモデルと類似している場合、計算時間を短縮するために、多数のプロンプト候補をフィルタリングするためにドラフトモデルに大きく依存する。プローブサンプリングは、Llama2-7bを用いて最大5.6$倍の高速化を達成し、AdvBenchにおいて同等以上の攻撃成功率(ASR)をもたらす。

要約(オリジナル)

Safety of Large Language Models (LLMs) has become a central issue given their rapid progress and wide applications. Greedy Coordinate Gradient (GCG) is shown to be effective in constructing prompts containing adversarial suffixes to break the presumingly safe LLMs, but the optimization of GCG is time-consuming and limits its practicality. To reduce the time cost of GCG and enable more comprehensive studies of LLM safety, in this work, we study a new algorithm called $\texttt{Probe sampling}$ to accelerate the GCG algorithm. At the core of the algorithm is a mechanism that dynamically determines how similar a smaller draft model’s predictions are to the target model’s predictions for prompt candidates. When the target model is similar to the draft model, we rely heavily on the draft model to filter out a large number of potential prompt candidates to reduce the computation time. Probe sampling achieves up to $5.6$ times speedup using Llama2-7b and leads to equal or improved attack success rate (ASR) on the AdvBench.

arxiv情報

著者 Yiran Zhao,Wenyue Zheng,Tianle Cai,Xuan Long Do,Kenji Kawaguchi,Anirudh Goyal,Michael Shieh
発行日 2024-03-02 16:23:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク