UniGuardian: A Unified Defense for Detecting Prompt Injection, Backdoor Attacks and Adversarial Attacks in Large Language Models

要約

大規模な言語モデル(LLMS)は、迅速な注入、バックドア攻撃、敵対的な攻撃などの攻撃に対して脆弱であり、プロンプトまたはモデルを操作して有害な出力を生成します。
この論文では、従来の深い学習攻撃パラダイムから逸脱して、それらの本質的な関係を探求し、それらを迅速なトリガー攻撃(PTA)と総称します。
これは重要な質問を提起します:プロンプトが良性か中毒かどうかを判断できますか?
これに対処するために、LLMSでの迅速な注入、バックドア攻撃、敵対的攻撃を検出するために設計された最初の統一防御メカニズムであるUniguardianを提案します。
さらに、検出パイプラインを最適化するための単一のフォワード戦略を導入し、単一のフォワードパス内で同時攻撃の検出とテキスト生成を可能にします。
私たちの実験では、ユニガルディアンがLLMの悪意のあるプロンプトを正確かつ効率的に識別することを確認しています。

要約(オリジナル)

Large Language Models (LLMs) are vulnerable to attacks like prompt injection, backdoor attacks, and adversarial attacks, which manipulate prompts or models to generate harmful outputs. In this paper, departing from traditional deep learning attack paradigms, we explore their intrinsic relationship and collectively term them Prompt Trigger Attacks (PTA). This raises a key question: Can we determine if a prompt is benign or poisoned? To address this, we propose UniGuardian, the first unified defense mechanism designed to detect prompt injection, backdoor attacks, and adversarial attacks in LLMs. Additionally, we introduce a single-forward strategy to optimize the detection pipeline, enabling simultaneous attack detection and text generation within a single forward pass. Our experiments confirm that UniGuardian accurately and efficiently identifies malicious prompts in LLMs.

arxiv情報

著者 Huawei Lin,Yingjie Lao,Tong Geng,Tan Yu,Weijie Zhao
発行日 2025-02-18 18:59:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク