要約
大規模言語モデル (LLM) アプリケーションにおけるプロンプト攻撃に対する防御の現在の評価では、2 つの重要な要素が見落とされることがよくあります。それは、敵対的な動作の動的な性質と、制限的な防御によって正当なユーザーに課せられるユーザビリティのペナルティです。
私たちは D-SEC (Dynamic Security Utility Threat Model) を提案します。これは、攻撃者を正当なユーザーから明示的に分離し、複数段階の相互作用をモデル化し、最適化可能な形式でセキュリティ ユーティリティを厳密に表現します。
さらに、現実的で適応的な攻撃データセットを生成するように設計された、クラウドソースのゲーム化されたレッドチーム プラットフォームである Gandalf を導入することで、既存の評価の欠点に対処します。
Gandalf を使用して、279,000 のプロンプト攻撃のデータセットを収集して公開します。
害のないユーザー データによって補完された私たちの分析は、セキュリティとユーティリティの間の相互作用を明らかにし、LLM に統合された防御 (システム プロンプトなど) がリクエストをブロックしなくてもユーザビリティを低下させる可能性があることを示しています。
制限されたアプリケーション ドメイン、多層防御、適応型防御が、安全で有用な LLM アプリケーションを構築するための効果的な戦略であることを実証します。
コードは \href{https://github.com/lakeraai/dsec-gandalf}{\texttt{https://github.com/lakeraai/dsec-gandalf}} で入手できます。
要約(オリジナル)
Current evaluations of defenses against prompt attacks in large language model (LLM) applications often overlook two critical factors: the dynamic nature of adversarial behavior and the usability penalties imposed on legitimate users by restrictive defenses. We propose D-SEC (Dynamic Security Utility Threat Model), which explicitly separates attackers from legitimate users, models multi-step interactions, and rigorously expresses the security-utility in an optimizable form. We further address the shortcomings in existing evaluations by introducing Gandalf, a crowd-sourced, gamified red-teaming platform designed to generate realistic, adaptive attack datasets. Using Gandalf, we collect and release a dataset of 279k prompt attacks. Complemented by benign user data, our analysis reveals the interplay between security and utility, showing that defenses integrated in the LLM (e.g., system prompts) can degrade usability even without blocking requests. We demonstrate that restricted application domains, defense-in-depth, and adaptive defenses are effective strategies for building secure and useful LLM applications. Code is available at \href{https://github.com/lakeraai/dsec-gandalf}{\texttt{https://github.com/lakeraai/dsec-gandalf}}.
arxiv情報
著者 | Niklas Pfister,Václav Volhejn,Manuel Knott,Santiago Arias,Julia Bazińska,Mykhailo Bichurin,Alan Commike,Janet Darling,Peter Dienes,Matthew Fiedler,David Haber,Matthias Kraft,Marco Lancini,Max Mathys,Damián Pascual-Ortiz,Jakub Podolak,Adrià Romero-López,Kyriacos Shiarlis,Andreas Signer,Zsolt Terek,Athanasios Theocharis,Daniel Timbrell,Samuel Trautwein,Samuel Watts,Natalie Wu,Mateo Rojas-Carulla |
発行日 | 2025-01-14 08:30:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google