要約
Frontier 言語モデルには誤用やジェイルブレイクに対する脆弱性があるため、敵対的に作成されたプロンプトに対する堅牢性を通じて安全性を確保するために、フィルターや調整トレーニングなどの安全対策の開発が促されています。
私たちは、安全性の目標を確保するには堅牢性が根本的に不十分であり、現在の防御方法と評価方法では二重意図のクエリと悪意のある目標の構成のリスクを考慮できていないと主張します。
これらのリスクを定量化するために、モデル出力の許容できない情報漏洩に基づいた新しい安全性評価フレームワークを導入し、私たちが提案する質問分解攻撃が、従来の脱獄よりも効果的に検閲された LLM から危険な知識をどのように抽出できるかを実証します。
私たちが提案する評価方法の根底にあるのは、推測的敵対者の新しい情報理論的脅威モデルであり、被害者から明示的に許容できない出力を強制するのではなく、被害者の出力から許容できない知識を推測することによって成功を測定するという点で、ジェイルブレイクなどのセキュリティ敵対者とは区別されます。
私たちの情報理論の枠組みを通じて、推論上の敵対者に対する安全を確保するには、防御メカニズムが情報検閲を確実にし、許可されない情報の漏洩を制限する必要があることを示します。
しかし、私たちは、そのような防御には安全性と実用性のトレードオフが避けられないことを証明しています。
要約(オリジナル)
Vulnerability of Frontier language models to misuse and jailbreaks has prompted the development of safety measures like filters and alignment training in an effort to ensure safety through robustness to adversarially crafted prompts. We assert that robustness is fundamentally insufficient for ensuring safety goals, and current defenses and evaluation methods fail to account for risks of dual-intent queries and their composition for malicious goals. To quantify these risks, we introduce a new safety evaluation framework based on impermissible information leakage of model outputs and demonstrate how our proposed question-decomposition attack can extract dangerous knowledge from a censored LLM more effectively than traditional jailbreaking. Underlying our proposed evaluation method is a novel information-theoretic threat model of inferential adversaries, distinguished from security adversaries, such as jailbreaks, in that success is measured by inferring impermissible knowledge from victim outputs as opposed to forcing explicitly impermissible outputs from the victim. Through our information-theoretic framework, we show that to ensure safety against inferential adversaries, defense mechanisms must ensure information censorship, bounding the leakage of impermissible information. However, we prove that such defenses inevitably incur a safety-utility trade-off.
arxiv情報
著者 | David Glukhov,Ziwen Han,Ilia Shumailov,Vardan Papyan,Nicolas Papernot |
発行日 | 2024-10-30 17:16:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google