Latent Jailbreak: A Benchmark for Evaluating Text Safety and Output Robustness of Large Language Models

要約

研究者は、テキストの安全性の低下を防ぐために、命令チューニングや人間または AI フィードバックからの強化学習 (RLHF/RLAIF) などのさまざまなトレーニング手法を使用して、大規模言語モデル (LLM) が人間の価値観と一致するようにすることに多大な労力を費やしてきました。
ただし、これらの防御は一部のジェイルブレイク攻撃に対して非常に脆弱なままであり、機密トピックに対してモデルが過度に防御的になったり、依然として有害なコンテンツを生成したりして、モデルのパフォーマンスが特に脆弱になる可能性があります。
したがって、テキストの安全性と出力の堅牢性を包括的に研究するために、悪意のある命令の埋め込みを含む潜在的な脱獄プロンプト データセットを提案します。
具体的には、翻訳対象のテキストに悪意のある命令が含まれる翻訳などの通常のタスクを完了するようにモデルに指示します。
安全性と堅牢性をさらに分析するために、階層的なアノテーション フレームワークを設計します。
我々は、明示的通常命令の位置、単語置換(明示的通常命令内の動詞、悪意のある命令内のターゲットグループ、悪意のある命令内のキューワード)、および命令置換(異なる明示的通常命令)に関するLLMの安全性と堅牢性の体系的な分析を提示します。
)。
私たちの結果は、現在の LLM が特定の命令動詞を優先するだけでなく、明示的な通常命令の異なる命令動詞に対して異なる脱獄率を示すことを示しています。
言い換えれば、モデルによって安全でないコンテンツが生成される確率は、明示的な通常の命令内の命令動詞に応じてさまざまな程度に強化されます。
コードとデータは https://github.com/qiuhuachuan/latent-jailbreak で入手できます。

要約(オリジナル)

Researchers have invested considerable effort into ensuring that large language models (LLMs) align with human values, using various training techniques, such as instruction tuning and Reinforcement Learning from Human or AI Feedback (RLHF/RLAIF), to guard against text unsafety. However, these defenses remain incredibly vulnerable to some jailbreak attacks, which can cause the model to become overly defensive to sensitive topics or still generate harmful content, leaving the model performance particularly fragile. Therefore, to comprehensively study text safety and output robustness, we propose a latent jailbreak prompt dataset, each involving malicious instruction embedding. Specifically, we instruct the model to complete a regular task, such as translation, where the text to be translated contains malicious instructions. To further analyze the safety and robustness, we design a hierarchical annotation framework. We present a systematic analysis of the safety and robustness of LLMs concerning the position of explicit normal instructions, word replacement (verbs in explicit normal instructions, target groups in malicious instructions, cue words in malicious instructions), and instruction replacement (different explicit normal instructions). Our results show that current LLMs not only have a preference for certain instruction verbs, but also exhibit different jailbreak rates for different instruction verbs in explicit normal instructions. In other words, the probability of generating unsafe content by the model will be reinforced to varying degrees depending on the instruction verb in explicit normal instructions. Code and data are available at https://github.com/qiuhuachuan/latent-jailbreak.

arxiv情報

著者 Huachuan Qiu,Shuai Zhang,Anqi Li,Hongliang He,Zhenzhong Lan
発行日 2023-07-17 13:49:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク