FlexLLM: Exploring LLM Customization for Moving Target Defense on Black-Box LLMs Against Jailbreak Attacks

要約

大規模言語モデル (LLM) での防御は、ジェイルブレイク攻撃として知られる、操作されたプロンプトを通じて有害なコンテンツを生成するためにこれらのシステムを悪用する多数の攻撃者に対抗するために重要です。
多くの防御戦略が提案されていますが、多くの場合、モデルの内部構造へのアクセスが必要になったり、追加のトレーニングが必要になったりするため、OpenAI API や Claude API などの LLM API を使用するサービス プロバイダーにとっては現実的ではありません。
この論文では、デコードハイパーパラメータを変更してさまざまな脱獄攻撃に対するモデルの堅牢性を高める、移動ターゲット防御アプローチを提案します。
私たちのアプローチでは、モデルの内部構造にアクセスする必要がなく、追加のトレーニング コストもかかりません。
提案されている防御策には 2 つの重要なコンポーネントが含まれています。(1) トークン生成確率に影響を与えるデコード ハイパーパラメータを特定して調整することにより、デコード戦略を最適化する。(2) デコード ハイパーパラメータとモデル システム プロンプトを動的ターゲットに変換し、各実行時に継続的に変更する。

デコード戦略とプロンプトを継続的に変更することで、防御は既存の攻撃を効果的に軽減します。
私たちの結果は、LLM をブラックボックス API として使用した場合にテストされた 3 つのモデルで、ジェイルブレイク攻撃に対して防御が最も効果的であることを示しています。
さらに、当社の防御は推論コストが低く、同等の応答品質を維持するため、他の防御方法と併用した場合に潜在的な保護層となります。

要約(オリジナル)

Defense in large language models (LLMs) is crucial to counter the numerous attackers exploiting these systems to generate harmful content through manipulated prompts, known as jailbreak attacks. Although many defense strategies have been proposed, they often require access to the model’s internal structure or need additional training, which is impractical for service providers using LLM APIs, such as OpenAI APIs or Claude APIs. In this paper, we propose a moving target defense approach that alters decoding hyperparameters to enhance model robustness against various jailbreak attacks. Our approach does not require access to the model’s internal structure and incurs no additional training costs. The proposed defense includes two key components: (1) optimizing the decoding strategy by identifying and adjusting decoding hyperparameters that influence token generation probabilities, and (2) transforming the decoding hyperparameters and model system prompts into dynamic targets, which are continuously altered during each runtime. By continuously modifying decoding strategies and prompts, the defense effectively mitigates the existing attacks. Our results demonstrate that our defense is the most effective against jailbreak attacks in three of the models tested when using LLMs as black-box APIs. Moreover, our defense offers lower inference costs and maintains comparable response quality, making it a potential layer of protection when used alongside other defense methods.

arxiv情報

著者 Bocheng Chen,Hanqing Guo,Qiben Yan
発行日 2024-12-10 17:02:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR パーマリンク