‘Not Aligned’ is Not ‘Malicious’: Being Careful about Hallucinations of Large Language Models’ Jailbreak

要約

脱獄」は大規模言語モデル(LLM)の安全性に関する主要な懸念事項であり、悪意のあるプロンプトによってLLMが有害な出力を生成する場合に発生し、LLMの信頼性と安全性に関する問題を提起している。したがって、脱獄の効果的な評価は、その緩和戦略を開発するために非常に重要です。しかし、私たちの研究は、現在の評価によって識別された多くの脱獄が、実際には幻覚-本物の安全違反と間違われる誤った出力-である可能性があることを明らかにした。この発見は、いくつかの認識された脆弱性が実際の脅威を表していない可能性があることを示唆しており、より正確なレッド・チーミング・ベンチマークの必要性を示している。この問題に対処するために、我々は、reli$textbf{AB}$ilit$textbf{Y}$ and jail$reak ha$textbf{B}$enchmark for reli$textbf{L}$l$textbf{U}$cination $textbf{E}$valuation (BabyBLUE)を提案する。BabyBLUEは、出力が有用な悪意のある命令であることを保証し、既存の脱獄ベンチマークを強化するために、様々な評価者を含む特別な検証フレームワークを導入している。さらに、BabyBLUEは、既存のレッドチーミングベンチマークの補強として新しいデータセットを提示し、特に脱獄における幻覚を取り上げ、人間社会に害をもたらす脱獄LLM出力の真の可能性を評価することを目的としています。

要約(オリジナル)

‘Jailbreak’ is a major safety concern of Large Language Models (LLMs), which occurs when malicious prompts lead LLMs to produce harmful outputs, raising issues about the reliability and safety of LLMs. Therefore, an effective evaluation of jailbreaks is very crucial to develop its mitigation strategies. However, our research reveals that many jailbreaks identified by current evaluations may actually be hallucinations-erroneous outputs that are mistaken for genuine safety breaches. This finding suggests that some perceived vulnerabilities might not represent actual threats, indicating a need for more precise red teaming benchmarks. To address this problem, we propose the $\textbf{B}$enchmark for reli$\textbf{AB}$ilit$\textbf{Y}$ and jail$\textbf{B}$reak ha$\textbf{L}$l$\textbf{U}$cination $\textbf{E}$valuation (BabyBLUE). BabyBLUE introduces a specialized validation framework including various evaluators to enhance existing jailbreak benchmarks, ensuring outputs are useful malicious instructions. Additionally, BabyBLUE presents a new dataset as an augmentation to the existing red teaming benchmarks, specifically addressing hallucinations in jailbreaks, aiming to evaluate the true potential of jailbroken LLM outputs to cause harm to human society.

arxiv情報

著者 Lingrui Mei,Shenghua Liu,Yiwei Wang,Baolong Bi,Jiayi Mao,Xueqi Cheng
発行日 2025-02-03 09:25:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク