LLMStinger: Jailbreaking LLMs using RL fine-tuned LLMs

要約

大規模言語モデル (LLM) を利用してジェイルブレイク攻撃用の敵対的なサフィックスを自動的に生成する新しいアプローチである LLMStinger を紹介します。
複雑なプロンプト エンジニアリングやホワイトボックス アクセスを必要とする従来の方法とは異なり、LLMStinger は強化学習 (RL) ループを使用して攻撃者の LLM を微調整し、HarmBench ベンチマークからの有害な質問に対する既存の攻撃に基づいて新しいサフィックスを生成します。
私たちの手法は既存のレッドチームアプローチを大幅に上回っており (15 の最新手法と比較しました)、LLaMA2-7B チャットでは攻撃成功率 (ASR) が +57.2% 向上し、Claude 2 では +50.3% の ASR 増加を達成しました。
どちらのモデルも徹底した安全対策で知られています。
さらに、GPT-3.5 では 94.97%、Gemma-2B-it では 99.4% の ASR を達成し、オープン ソース モデルとクローズド ソース モデルにわたる LLMStinger の堅牢性と適応性を実証しました。

要約(オリジナル)

We introduce LLMStinger, a novel approach that leverages Large Language Models (LLMs) to automatically generate adversarial suffixes for jailbreak attacks. Unlike traditional methods, which require complex prompt engineering or white-box access, LLMStinger uses a reinforcement learning (RL) loop to fine-tune an attacker LLM, generating new suffixes based on existing attacks for harmful questions from the HarmBench benchmark. Our method significantly outperforms existing red-teaming approaches (we compared against 15 of the latest methods), achieving a +57.2% improvement in Attack Success Rate (ASR) on LLaMA2-7B-chat and a +50.3% ASR increase on Claude 2, both models known for their extensive safety measures. Additionally, we achieved a 94.97% ASR on GPT-3.5 and 99.4% on Gemma-2B-it, demonstrating the robustness and adaptability of LLMStinger across open and closed-source models.

arxiv情報

著者 Piyush Jha,Arnav Arora,Vijay Ganesh
発行日 2024-11-13 18:44:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG パーマリンク