xJailbreak: Representation Space Guided Reinforcement Learning for Interpretable LLM Jailbreaking

要約

安全アライメントメカニズムは、大規模な言語モデル(LLM)が有害な情報や非倫理的なコンテンツを生成するのを防ぐために不可欠です。
ただし、巧妙に作成されたプロンプトは、モデルの内部パラメーターにアクセスすることなく、これらの安全対策をバイパスすることができます。これは、ブラックボックスの脱獄として知られる現象です。
遺伝的アルゴリズムなどの既存のヒューリスティックなブラックボックス攻撃方法は、固有のランダム性により有効性が限られているが、最近の強化学習(RL)ベースの方法には、堅牢で有益な報酬シグナルが欠けていることが多い。
これらの課題に対処するために、RLを活用する新しいブラックボックス脱獄法を提案します。これは、良性プロンプトと悪意のあるプロンプトの間の埋め込みの近接性を分析することにより、プロンプトの生成を最適化します。
このアプローチにより、書き換えられたプロンプトが、攻撃の有効性を高めながら、元のプロンプトの意図と密接に一致することが保証されます。
さらに、キーワード、意図のマッチング、および回答検証を組み込んだ包括的な脱獄評価フレームワークを紹介して、脱獄の成功のより厳密で全体的な評価を提供します。
実験結果は、私たちのアプローチの優位性を示しており、QWEN2.5-7B-Instruct、llama3.1-8b-instruct、GPTを含むいくつかの著名なオープンソースLLMで最先端の(SOTA)パフォーマンスを達成しています。
-4O-0806。
私たちの方法は、脱獄攻撃の有効性に新しいベンチマークを設定し、LLMSの潜在的な脆弱性を強調しています。
この作業のコードベースは、https://github.com/aegis1863/xjailbreakで入手できます。

要約(オリジナル)

Safety alignment mechanism are essential for preventing large language models (LLMs) from generating harmful information or unethical content. However, cleverly crafted prompts can bypass these safety measures without accessing the model’s internal parameters, a phenomenon known as black-box jailbreak. Existing heuristic black-box attack methods, such as genetic algorithms, suffer from limited effectiveness due to their inherent randomness, while recent reinforcement learning (RL) based methods often lack robust and informative reward signals. To address these challenges, we propose a novel black-box jailbreak method leveraging RL, which optimizes prompt generation by analyzing the embedding proximity between benign and malicious prompts. This approach ensures that the rewritten prompts closely align with the intent of the original prompts while enhancing the attack’s effectiveness. Furthermore, we introduce a comprehensive jailbreak evaluation framework incorporating keywords, intent matching, and answer validation to provide a more rigorous and holistic assessment of jailbreak success. Experimental results show the superiority of our approach, achieving state-of-the-art (SOTA) performance on several prominent open and closed-source LLMs, including Qwen2.5-7B-Instruct, Llama3.1-8B-Instruct, and GPT-4o-0806. Our method sets a new benchmark in jailbreak attack effectiveness, highlighting potential vulnerabilities in LLMs. The codebase for this work is available at https://github.com/Aegis1863/xJailbreak.

arxiv情報

著者 Sunbowen Lee,Shiwen Ni,Chi Wei,Shuaimin Li,Liyang Fan,Ahmadreza Argha,Hamid Alinejad-Rokny,Ruifeng Xu,Yicheng Gong,Min Yang
発行日 2025-01-28 06:07:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク