Keep Security! Benchmarking Security Policy Preservation in Large Language Model Contexts Against Indirect Attacks in Question Answering

要約

大規模な言語モデル(LLM)が企業や政府などの機密性のあるドメインにますます展開されているため、コンテキスト内でユーザー定義のセキュリティポリシーを遵守することは、特に情報の非開示に関して重要です。
以前のLLM研究では、一般的な安全性と社会的に敏感なデータに焦点を当てていますが、攻撃に対するコンテキストセキュリティの保存のための大規模なベンチマークはまだ不足しています。
これに対処するために、新しい大規模なベンチマークデータセットであるCoprivaを紹介し、問題の回答における文脈的非秘密保持ポリシーのLLM順守を評価します。
現実的なコンテキストから派生したデータセットには、禁止された情報を求める直接的で挑戦的な間接攻撃として設計された明示的なポリシーとクエリが含まれています。
ベンチマークで10のLLMを評価し、重大な脆弱性を明らかにします。多くのモデルは、ユーザー定義のポリシーに違反し、機密情報をリークします。
この障害は、間接的な攻撃に対して特に深刻であり、機密アプリケーションの現在のLLM安全アライメントの重大なギャップを強調しています。
私たちの分析は、モデルがクエリに対する正解をしばしば識別できることが多いが、世代中にポリシーの制約を組み込むのに苦労していることを明らかにしています。
対照的に、それらは、明示的に促されたときに出力を修正する部分的な能力を示します。
私たちの調査結果は、コンテキストセキュリティを保証するためのより堅牢な方法の緊急の必要性を強調しています。

要約(オリジナル)

As Large Language Models (LLMs) are increasingly deployed in sensitive domains such as enterprise and government, ensuring that they adhere to user-defined security policies within context is critical-especially with respect to information non-disclosure. While prior LLM studies have focused on general safety and socially sensitive data, large-scale benchmarks for contextual security preservation against attacks remain lacking. To address this, we introduce a novel large-scale benchmark dataset, CoPriva, evaluating LLM adherence to contextual non-disclosure policies in question answering. Derived from realistic contexts, our dataset includes explicit policies and queries designed as direct and challenging indirect attacks seeking prohibited information. We evaluate 10 LLMs on our benchmark and reveal a significant vulnerability: many models violate user-defined policies and leak sensitive information. This failure is particularly severe against indirect attacks, highlighting a critical gap in current LLM safety alignment for sensitive applications. Our analysis reveals that while models can often identify the correct answer to a query, they struggle to incorporate policy constraints during generation. In contrast, they exhibit a partial ability to revise outputs when explicitly prompted. Our findings underscore the urgent need for more robust methods to guarantee contextual security.

arxiv情報

著者 Hwan Chang,Yumin Kim,Yonghyun Jun,Hwanhee Lee
発行日 2025-05-21 17:58:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク