CURVALID: Geometrically-guided Adversarial Prompt Detection

要約

大規模な言語モデル(LLM)を侵害し、望ましくない行動を誘発することができる敵対的なプロンプトは、安全な展開に大きな障害をもたらします。
現在の緩和戦略は、組み込みの防御メカニズムの有効化やLLMSの微調整に依存していますが、敵対的プロンプトと良性プロンプトの基本的な区別はまだ理解されていません。
この作業では、幾何学的特性を活用することにより敵対的なプロンプトを効率的に検出する新しい防衛フレームワークであるCurvalidを紹介します。
これは、LLMのタイプにとって不可知論的であり、多様な敵対的なプロンプトとLLMアーキテクチャにわたって統一された検出フレームワークを提供します。
Curvalidは、テキストの幾何学的分析に基づいて、根本的な違いを明らかにします。
ホエルエル方程式を介して曲率の概念を$ n $ n $ dimensional Word埋め込みスペースに理論的に拡張し、基礎となるマニホールドのセマンティックシフトや曲率など、ローカルの幾何学的特性を定量化できるようにします。
さらに、局所固有の次元(蓋)を使用して、敵対的な部分空間内のテキストプロンプトの幾何学的特徴をキャプチャします。
私たちの調査結果は、敵対的なプロンプトが幾何学的特性の点で良性プロンプトと根本的に異なることを明らかにしています。
私たちの結果は、Curalidが敵対的な質問の優れた検出と拒否を提供し、より安全なLLM展開への道を開くことを示しています。
ソースコードは、https://github.com/cancanxxx/curvalidにあります

要約(オリジナル)

Adversarial prompts capable of jailbreaking large language models (LLMs) and inducing undesirable behaviours pose a significant obstacle to their safe deployment. Current mitigation strategies rely on activating built-in defence mechanisms or fine-tuning the LLMs, but the fundamental distinctions between adversarial and benign prompts are yet to be understood. In this work, we introduce CurvaLID, a novel defense framework that efficiently detects adversarial prompts by leveraging their geometric properties. It is agnostic to the type of LLM, offering a unified detection framework across diverse adversarial prompts and LLM architectures. CurvaLID builds on the geometric analysis of text prompts to uncover their underlying differences. We theoretically extend the concept of curvature via the Whewell equation into an $n$-dimensional word embedding space, enabling us to quantify local geometric properties, including semantic shifts and curvature in the underlying manifolds. Additionally, we employ Local Intrinsic Dimensionality (LID) to capture geometric features of text prompts within adversarial subspaces. Our findings reveal that adversarial prompts differ fundamentally from benign prompts in terms of their geometric characteristics. Our results demonstrate that CurvaLID delivers superior detection and rejection of adversarial queries, paving the way for safer LLM deployment. The source code can be found at https://github.com/Cancanxxx/CurvaLID

arxiv情報

著者 Canaan Yung,Hanxun Huang,Sarah Monazam Erfani,Christopher Leckie
発行日 2025-03-05 13:47:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク