Studious Bob Fight Back Against Jailbreaking via Prompt Adversarial Tuning

要約

大規模言語モデル (LLM) はさまざまなアプリケーションで多大な成功を収めていますが、組み込みの安全対策をバイパスして危険または違法なコンテンツを提供する、ジェイルブレイクとして知られる現象を誘導する可能性のある特定のプロンプトの影響も受けやすくなっています。
LLM が有害な情報を生成するのを防ぐために、コンテンツ フィルタリングやモデルの敵対的トレーニングに重点を置いたさまざまな防御戦略が提案されています。
この論文では、防御制御メカニズムをトレーニングするための Prompt Adversarial Tuning (PAT) という名前のアプローチを提案します。このアプローチは、防御戦略を実装するためのユーザー プロンプトのプレフィックスとして埋め込まれます。
攻撃制御と防御制御の更新を交互に行いながら、最適化された目標を達成するために、敵対的トレーニングと同様のトレーニング プロセスを設計します。
私たちの知る限りでは、迅速なチューニングの観点から防御を実装したのは当社が初めてです。
一度採用されれば、私たちの方法は LLM の運用効率にほとんど影響を与えません。
実験では、私たちの方法がブラックボックス設定とホワイトボックス設定の両方で効果的であり、単純な無害な質問に対する無害な回答率を 80% 維持しながら、高度な攻撃の成功率をほぼ 0 に低下させることが示されています。
私たちの研究は、LLM セキュリティの将来の探求に新たな視点を与える可能性があります。

要約(オリジナル)

Although Large Language Models (LLMs) have achieved tremendous success in various applications, they are also susceptible to certain prompts that can induce them to bypass built-in safety measures and provide dangerous or illegal content, a phenomenon known as jailbreak. To protect LLMs from producing harmful information, various defense strategies are proposed, with most focusing on content filtering or adversarial training of models. In this paper, we propose an approach named Prompt Adversarial Tuning (PAT) to train a defense control mechanism, which is then embedded as a prefix to user prompts to implement our defense strategy. We design a training process similar to adversarial training to achieve our optimized goal, alternating between updating attack and defense controls. To our knowledge, we are the first to implement defense from the perspective of prompt tuning. Once employed, our method will hardly impact the operational efficiency of LLMs. Experiments show that our method is effective in both black-box and white-box settings, reducing the success rate of advanced attacks to nearly 0 while maintaining the benign answer rate of 80% to simple benign questions. Our work might potentially chart a new perspective for future explorations in LLM security.

arxiv情報

著者 Yichuan Mo,Yuji Wang,Zeming Wei,Yisen Wang
発行日 2024-02-09 09:09:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR, cs.LG パーマリンク