‘Not Aligned’ is Not ‘Malicious’: Being Careful about Hallucinations of Large Language Models’ Jailbreak

要約

「脱獄」は、大規模言語モデル (LLM) の安全性に関する主要な懸念事項であり、悪意のあるプロンプトによって LLM が有害な出力を生成するときに発生し、LLM の信頼性と安全性に関する問題が生じます。
したがって、ジェイルブレイクを効果的に評価することは、ジェイルブレイクの軽減戦略を開発する上で非常に重要です。
しかし、私たちの調査では、現在の評価で特定されたジェイルブレイクの多くは、実際には本物の安全違反と誤認された幻覚による誤った出力である可能性があることが明らかになりました。
この調査結果は、認識されている一部の脆弱性が実際の脅威を表していない可能性があることを示唆しており、より正確なレッド チーム ベンチマークの必要性を示しています。
この問題に対処するために、reli$\textbf{AB}$ilit$\textbf{Y}$ とjail$\textbf{B}$reak ha$\textbf{L} に対して $\textbf{B}$enchmark を提案します。
$l$\textbf{U}$cination $\textbf{E}$valuation (BabyBLUE)。
BabyBLUE は、既存のジェイルブレイク ベンチマークを強化するためのさまざまなエバリュエーターを含む特殊な検証フレームワークを導入し、出力が有用な悪意のある命令であることを保証します。
さらに、BabyBLUE は、既存のレッド チーム ベンチマークの拡張として新しいデータセットを提示し、特に脱獄時の幻覚に対処し、人間社会に害を及ぼす脱獄された LLM 出力の真の可能性を評価することを目的としています。

要約(オリジナル)

‘Jailbreak’ is a major safety concern of Large Language Models (LLMs), which occurs when malicious prompts lead LLMs to produce harmful outputs, raising issues about the reliability and safety of LLMs. Therefore, an effective evaluation of jailbreaks is very crucial to develop its mitigation strategies. However, our research reveals that many jailbreaks identified by current evaluations may actually be hallucinations-erroneous outputs that are mistaken for genuine safety breaches. This finding suggests that some perceived vulnerabilities might not represent actual threats, indicating a need for more precise red teaming benchmarks. To address this problem, we propose the $\textbf{B}$enchmark for reli$\textbf{AB}$ilit$\textbf{Y}$ and jail$\textbf{B}$reak ha$\textbf{L}$l$\textbf{U}$cination $\textbf{E}$valuation (BabyBLUE). BabyBLUE introduces a specialized validation framework including various evaluators to enhance existing jailbreak benchmarks, ensuring outputs are useful malicious instructions. Additionally, BabyBLUE presents a new dataset as an augmentation to the existing red teaming benchmarks, specifically addressing hallucinations in jailbreaks, aiming to evaluate the true potential of jailbroken LLM outputs to cause harm to human society.

arxiv情報

著者 Lingrui Mei,Shenghua Liu,Yiwei Wang,Baolong Bi,Jiayi Mao,Xueqi Cheng
発行日 2024-06-17 15:51:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク