Tricking LLMs into Disobedience: Formalizing, Analyzing, and Detecting Jailbreaks

要約

商用ラージ言語モデル (LLM) を使用した最近の調査により、専門家でないユーザーでもプロンプトを操作するだけで LLM を脱獄できることがわかりました。
その結果、出力動作の劣化、プライバシーとセキュリティの侵害、攻撃的な出力、およびコンテンツ規制ポリシーの違反が発生します。
これらの攻撃とその緩和策を形式化して分析するために、限定的な研究が実施されています。
私たちは、既知の (および可能性のある) ジェイルブレイクの形式主義と分類法を提案することで、このギャップを埋めます。
私たちは、オープンソースおよび商用 LLM (GPT ベースのモデル、OPT、BLOOM、FLAN-T5-XXL など) に対する既存の脱獄方法とその有効性を調査します。
さらに、既知の攻撃に対する有効性の観点からジェイルブレイク検出の課題について説明します。
分析のために、4 つのタスクにわたる 3700 個の脱獄プロンプトのデータセットを収集します。
モデル出力とともにデータセットを公開します。

要約(オリジナル)

Recent explorations with commercial Large Language Models (LLMs) have shown that non-expert users can jailbreak LLMs by simply manipulating their prompts; resulting in degenerate output behavior, privacy and security breaches, offensive outputs, and violations of content regulator policies. Limited studies have been conducted to formalize and analyze these attacks and their mitigations. We bridge this gap by proposing a formalism and a taxonomy of known (and possible) jailbreaks. We survey existing jailbreak methods and their effectiveness on open-source and commercial LLMs (such as GPT-based models, OPT, BLOOM, and FLAN-T5-XXL). We further discuss the challenges of jailbreak detection in terms of their effectiveness against known attacks. For our analysis, we collect a dataset of 3700 jailbreak prompts across 4 tasks. We will make the dataset public along with the model outputs.

arxiv情報

著者 Abhinav Rao,Sachin Vashistha,Atharva Naik,Somak Aditya,Monojit Choudhury
発行日 2024-02-26 08:42:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク