Rethinking How to Evaluate Language Model Jailbreak

要約

大規模言語モデル (LLM) は、さまざまなアプリケーションとの統合が進んでいます。
LLM が安全でない応答を生成しないようにするために、LLM は制限されるコンテンツを指定する保護手段と連携しています。
ただし、一般にジェイルブレイクと呼ばれる手法を使用すると、このような調整をバイパスして、禁止されたコンテンツを作成することができます。
ジェイルブレイクを自動的に実行するためのさまざまなシステムが提案されています。
これらのシステムは、脱獄の試みが成功したかどうかを判断する評価方法に依存しています。
ただし、私たちの分析により、現在のジェイルブレイク評価方法には 2 つの制限があることが明らかになりました。
(1) その目的は明確性に欠けており、安全でない反応を特定するという目標と一致していません。
(2) 脱獄の結果を成功か失敗かの二値的な結果として過度に単純化します。
この論文では、言語モデルのジェイルブレイクを評価するために、セーフガード違反、情報提供性、相対的真実性という 3 つの指標を提案します。
さらに、これらのメトリクスがさまざまな悪意のある攻撃者の目標とどのように相関するかを示します。
これらのメトリクスを計算するために、応答の前処理後に自然言語生成の評価方法を拡張する多面的なアプローチを導入します。
3 つの悪意のあるデータセットと 3 つの脱獄システムから生成されたベンチマーク データセットに基づいてメトリクスを評価します。
ベンチマーク データセットには 3 人のアノテーターによってラベルが付けられます。
私たちの多面的なアプローチを既存の 3 つのジェイルブレイク評価方法と比較します。
実験では、当社の多面的評価が既存の方法より優れていることが実証され、F1 スコアは既存のベースラインと比較して平均 17% 向上しました。
私たちの調査結果は、ジェイルブレイク問題の二者択一的な見方から離れ、言語モデルの安全性を確保するためにより包括的な評価を組み込む必要性を動機付けています。

要約(オリジナル)

Large language models (LLMs) have become increasingly integrated with various applications. To ensure that LLMs do not generate unsafe responses, they are aligned with safeguards that specify what content is restricted. However, such alignment can be bypassed to produce prohibited content using a technique commonly referred to as jailbreak. Different systems have been proposed to perform the jailbreak automatically. These systems rely on evaluation methods to determine whether a jailbreak attempt is successful. However, our analysis reveals that current jailbreak evaluation methods have two limitations. (1) Their objectives lack clarity and do not align with the goal of identifying unsafe responses. (2) They oversimplify the jailbreak result as a binary outcome, successful or not. In this paper, we propose three metrics, safeguard violation, informativeness, and relative truthfulness, to evaluate language model jailbreak. Additionally, we demonstrate how these metrics correlate with the goal of different malicious actors. To compute these metrics, we introduce a multifaceted approach that extends the natural language generation evaluation method after preprocessing the response. We evaluate our metrics on a benchmark dataset produced from three malicious intent datasets and three jailbreak systems. The benchmark dataset is labeled by three annotators. We compare our multifaceted approach with three existing jailbreak evaluation methods. Experiments demonstrate that our multifaceted evaluation outperforms existing methods, with F1 scores improving on average by 17% compared to existing baselines. Our findings motivate the need to move away from the binary view of the jailbreak problem and incorporate a more comprehensive evaluation to ensure the safety of the language model.

arxiv情報

著者 Hongyu Cai,Arjun Arunasalam,Leo Y. Lin,Antonio Bianchi,Z. Berkay Celik
発行日 2024-05-07 14:06:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR, cs.LG パーマリンク