要約
大規模言語モデル (LLM) は、多くの自然言語処理タスクで成功を収めています。
厳格な安全調整プロセスにもかかわらず、Llama 2 や Claude 2 などの安全調整済みとされる LLM は依然としてジェイルブレイクの影響を受けやすく、セキュリティ リスクやモデルの悪用につながります。
このようなリスクを軽減するオプションの 1 つは、LLM の入力または出力に望ましくない動作がないかチェックする専用の「安全装置」を LLM に追加することです。
有望なアプローチは、LLM 自体を保護手段として使用することです。
それにもかかわらず、LLM に有毒成分を自己分類するよう促すなどのベースライン方法では、効果が限られています。
これはドメイン シフトによるものであると仮説を立てます。アライメント トレーニングはモデルに自己検閲動作 (「申し訳ありませんが、それはできません」) を与えますが、自己分類アプローチはモデルを分類形式 (「これは」です) にシフトします。
悪意のあるプロンプトを表示します。
この研究では、単にモデルに独自の出力を繰り返すように要求することで、このドメインのシフトを回避する PARDEN を提案します。
PARDEN では、モデルへの微調整もホワイト ボックスへのアクセスも必要ありません。
私たちは手法の有効性を経験的に検証し、PARDEN が Llama-2 および Claude-2 の既存のジェイルブレイク検出ベースラインを大幅に上回ることを示します。
コードとデータは https://github.com/Ed-Zh/PARDEN で入手できます。
PARDEN は、高い真陽性率 (TPR) と低い偽陽性率 (FPR) の関連領域で特に強力であることがわかりました。
たとえば、Llama2-7B の場合、90% に等しい TPR で、PARDEN は有害な行動データセットで FPR を 24.8% から 2.0% に約 11 倍削減します。
要約(オリジナル)
Large language models (LLMs) have shown success in many natural language processing tasks. Despite rigorous safety alignment processes, supposedly safety-aligned LLMs like Llama 2 and Claude 2 are still susceptible to jailbreaks, leading to security risks and abuse of the models. One option to mitigate such risks is to augment the LLM with a dedicated ‘safeguard’, which checks the LLM’s inputs or outputs for undesired behaviour. A promising approach is to use the LLM itself as the safeguard. Nonetheless, baseline methods, such as prompting the LLM to self-classify toxic content, demonstrate limited efficacy. We hypothesise that this is due to domain shift: the alignment training imparts a self-censoring behaviour to the model (‘Sorry I can’t do that’), while the self-classify approach shifts it to a classification format (‘Is this prompt malicious’). In this work, we propose PARDEN, which avoids this domain shift by simply asking the model to repeat its own outputs. PARDEN neither requires finetuning nor white box access to the model. We empirically verify the effectiveness of our method and show that PARDEN significantly outperforms existing jailbreak detection baselines for Llama-2 and Claude-2. Code and data are available at https://github.com/Ed-Zh/PARDEN. We find that PARDEN is particularly powerful in the relevant regime of high True Positive Rate (TPR) and low False Positive Rate (FPR). For instance, for Llama2-7B, at TPR equal to 90%, PARDEN accomplishes a roughly 11x reduction in the FPR from 24.8% to 2.0% on the harmful behaviours dataset.
arxiv情報
著者 | Ziyang Zhang,Qizhen Zhang,Jakob Foerster |
発行日 | 2024-05-14 15:56:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google