Protecting Your LLMs with Information Bottleneck

要約

大規模言語モデル (LLM) の出現は自然言語処理の分野に革命をもたらしましたが、有害なコンテンツを生成するために攻撃される可能性があります。
LLM を倫理的に調整する努力にもかかわらず、これらは多くの場合脆弱であり、最適化された、または手動の敵対的プロンプトによる脱獄攻撃によって回避される可能性があります。
これに対処するために、情報ボトルネック原理に基づいた防御メカニズムである情報ボトルネックプロテクター (IBProtector) を導入し、つまらない解決策を避けるために目的を変更します。
IBProtector は、軽量でトレーニング可能なエクストラクターによって促進され、プロンプトを選択的に圧縮して混乱させ、ターゲット LLM が期待される応答で応答するために重要な情報のみを保持します。
さらに、勾配がどの LLM とも互換性があることが見えない状況をさらに検討します。
私たちの経験的評価によれば、IBProtector は、応答品質や推論速度に過度の影響を与えることなく、ジェイルブレイクの試みを軽減する点で現在の防御方法よりも優れています。
さまざまな攻撃手法やターゲット LLM に対するその有効性と適応性は、基盤となるモデルを変更することなく LLM のセキュリティを強化する、新規で移行可能な防御手段としての IBProtector の可能性を強調しています。

要約(オリジナル)

The advent of large language models (LLMs) has revolutionized the field of natural language processing, yet they might be attacked to produce harmful content. Despite efforts to ethically align LLMs, these are often fragile and can be circumvented by jailbreaking attacks through optimized or manual adversarial prompts. To address this, we introduce the Information Bottleneck Protector (IBProtector), a defense mechanism grounded in the information bottleneck principle, and we modify the objective to avoid trivial solutions. The IBProtector selectively compresses and perturbs prompts, facilitated by a lightweight and trainable extractor, preserving only essential information for the target LLMs to respond with the expected answer. Moreover, we further consider a situation where the gradient is not visible to be compatible with any LLM. Our empirical evaluations show that IBProtector outperforms current defense methods in mitigating jailbreak attempts, without overly affecting response quality or inference speed. Its effectiveness and adaptability across various attack methods and target LLMs underscore the potential of IBProtector as a novel, transferable defense that bolsters the security of LLMs without requiring modifications to the underlying models.

arxiv情報

著者 Zichuan Liu,Zefan Wang,Linjie Xu,Jinyu Wang,Lei Song,Tianchun Wang,Chunlin Chen,Wei Cheng,Jiang Bian
発行日 2024-05-16 13:26:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR パーマリンク