Latent Jailbreak: A Test Suite for Evaluating Both Text Safety and Output Robustness of Large Language Models

要約

大規模言語モデル (LLM) が人間の価値観に沿って安全なテキストを生成できるようにするために、多大な研究努力が払われてきました。
ただし、特定のトピックに対する機密性を重視しすぎると、指示に従う際のモデルの堅牢性が損なわれ、タスクを完了する際の全体的なパフォーマンスに影響を与える可能性があります。
ジェイルブレイク LLM のこれまでのベンチマークは、堅牢性を考慮せずにモデルの安全性を評価することに主に焦点を当てていました。
このペーパーでは、LLM の安全性と堅牢性の両方を評価するベンチマークを提案し、バランスの取れたアプローチの必要性を強調します。
テキストの安全性と出力の堅牢性を包括的に研究するために、それぞれに悪意のある命令の埋め込みを伴う潜在的なジェイルブレイク プロンプト データセットを導入します。
具体的には、悪意のある命令を含む翻訳対象のテキストを使用して、翻訳などの通常のタスクを完了するようにモデルに指示します。
安全性と堅牢性をさらに分析するために、階層的なアノテーション フレームワークを設計します。
我々は、明示的通常命令の位置、単語置換(明示的通常命令の動詞、悪意のある命令のターゲットグループ、明示的通常命令のキューワード)、および命令置換(異なる明示的通常命令のキューワード)に関するLLMの安全性と堅牢性の体系的な分析を提示します。
説明書)。
私たちの結果は、現在の LLM が特定の命令動詞を優先するだけでなく、明示的な通常の命令内のさまざまな命令動詞に対してさまざまな脱獄率を示すことを示しています。
コードとデータは https://github.com/qiuhuachuan/latent-jailbreak で入手できます。

要約(オリジナル)

Considerable research efforts have been devoted to ensuring that large language models (LLMs) align with human values and generate safe text. However, an excessive focus on sensitivity to certain topics can compromise the model’s robustness in following instructions, thereby impacting its overall performance in completing tasks. Previous benchmarks for jailbreaking LLMs have primarily focused on evaluating the safety of the models without considering their robustness. In this paper, we propose a benchmark that assesses both the safety and robustness of LLMs, emphasizing the need for a balanced approach. To comprehensively study text safety and output robustness, we introduce a latent jailbreak prompt dataset, each involving malicious instruction embedding. Specifically, we instruct the model to complete a regular task, such as translation, with the text to be translated containing malicious instructions. To further analyze safety and robustness, we design a hierarchical annotation framework. We present a systematic analysis of the safety and robustness of LLMs regarding the position of explicit normal instructions, word replacements (verbs in explicit normal instructions, target groups in malicious instructions, cue words for explicit normal instructions), and instruction replacements (different explicit normal instructions). Our results demonstrate that current LLMs not only prioritize certain instruction verbs but also exhibit varying jailbreak rates for different instruction verbs in explicit normal instructions. Code and data are available at https://github.com/qiuhuachuan/latent-jailbreak.

arxiv情報

著者 Huachuan Qiu,Shuai Zhang,Anqi Li,Hongliang He,Zhenzhong Lan
発行日 2023-08-18 07:52:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク