Defending LLMs against Jailbreaking Attacks via Backtranslation

要約

多くの大規模言語モデル (LLM) は、有害なリクエストを拒否するようにトレーニングされていますが、有害な意図を隠すために元のプロンプトを書き換える脱獄攻撃に対して依然として脆弱です。
本稿では、「バックトランスレーション」によるジェイルブレイク攻撃からLLMを防御する新しい方法を提案します。
具体的には、入力プロンプトからターゲット LLM によって生成された最初の応答が与えられると、逆変換により、言語モデルが応答につながる入力プロンプトを推測するように促されます。
推論されたプロンプトは逆変換プロンプトと呼ばれ、LLM の応答に基づいて生成され、攻撃者によって直接操作されないため、元のプロンプトの実際の意図が明らかになる傾向があります。
次に、逆変換されたプロンプトでターゲット LLM を再度実行し、モデルが逆変換されたプロンプトを拒否した場合は、元のプロンプトを拒否します。
私たちは、提案されている防御策がその有効性と効率性に関していくつかの利点をもたらすことを説明します。
私たちは、ベースラインでは困難なケースでは、防御がベースラインを大幅に上回り、また、無害な入力プロンプトの生成品質にもほとんど影響を与えないことを経験的に示しています。

要約(オリジナル)

Although many large language models (LLMs) have been trained to refuse harmful requests, they are still vulnerable to jailbreaking attacks, which rewrite the original prompt to conceal its harmful intent. In this paper, we propose a new method for defending LLMs against jailbreaking attacks by “backtranslation”. Specifically, given an initial response generated by the target LLM from an input prompt, our backtranslation prompts a language model to infer an input prompt that can lead to the response. The inferred prompt is called the backtranslated prompt which tends to reveal the actual intent of the original prompt, since it is generated based on the LLM’s response and is not directly manipulated by the attacker. We then run the target LLM again on the backtranslated prompt, and we refuse the original prompt if the model refuses the backtranslated prompt. We explain that the proposed defense provides several benefits on its effectiveness and efficiency. We empirically demonstrate that our defense significantly outperforms the baselines, in the cases that are hard for the baselines, and our defense also has little impact on the generation quality for benign input prompts.

arxiv情報

著者 Yihan Wang,Zhouxing Shi,Andrew Bai,Cho-Jui Hsieh
発行日 2024-02-26 10:03:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク