要約
大規模な言語モデル(LLMS)は、幅広いアプリケーション、たとえば医学的質問、数学科学、コード生成にわたって顕著なパフォーマンスを実証しています。
しかし、それらはまた、時代遅れの知識や幻覚に対する感受性など、固有の制限を示します。
検索された生成(RAG)は、これらの問題に対処するための有望なパラダイムとして浮上していますが、新しい脆弱性も導入しています。
最近の努力はRAGベースのLLMSのセキュリティに焦点を当てていますが、既存の攻撃方法は3つの重大な課題に直面しています。(1)限られた数の毒テキストのみを知識データベースに注入できる場合、それらの有効性は急激に低下します。
正式な最適化フレームワークと理論的保証は、それらの有効性と適用性を制限します。
これらの問題に対処するために、プロンプト内にバックドアトリガーを埋め込んでいる間に少数の毒テキストを知識データベースに導入する新しい最適化駆動型攻撃である調整されたプロンプトラグ攻撃(PR-attack)を提案します。
アクティブ化されると、トリガーにより、LLMはターゲットクエリに対する事前に設計された応答を生成し、他のコンテキストで通常の動作を維持します。
これにより、高い効果とステルスの両方が保証されます。
攻撃生成プロセスを、最適な毒テキストとトリガーを開発するために原則的な最適化フレームワークを活用するバイレベル最適化問題として策定します。
多様なLLMとデータセットを横切る広範な実験は、PR攻撃の有効性を示しており、既存の方法と比較して、限られた数の中毒テキストとステルスが大幅に改善されたとしても、攻撃の成功率が高くなります。
要約(オリジナル)
Large Language Models (LLMs) have demonstrated remarkable performance across a wide range of applications, e.g., medical question-answering, mathematical sciences, and code generation. However, they also exhibit inherent limitations, such as outdated knowledge and susceptibility to hallucinations. Retrieval-Augmented Generation (RAG) has emerged as a promising paradigm to address these issues, but it also introduces new vulnerabilities. Recent efforts have focused on the security of RAG-based LLMs, yet existing attack methods face three critical challenges: (1) their effectiveness declines sharply when only a limited number of poisoned texts can be injected into the knowledge database, (2) they lack sufficient stealth, as the attacks are often detectable by anomaly detection systems, which compromises their effectiveness, and (3) they rely on heuristic approaches to generate poisoned texts, lacking formal optimization frameworks and theoretic guarantees, which limits their effectiveness and applicability. To address these issues, we propose coordinated Prompt-RAG attack (PR-attack), a novel optimization-driven attack that introduces a small number of poisoned texts into the knowledge database while embedding a backdoor trigger within the prompt. When activated, the trigger causes the LLM to generate pre-designed responses to targeted queries, while maintaining normal behavior in other contexts. This ensures both high effectiveness and stealth. We formulate the attack generation process as a bilevel optimization problem leveraging a principled optimization framework to develop optimal poisoned texts and triggers. Extensive experiments across diverse LLMs and datasets demonstrate the effectiveness of PR-Attack, achieving a high attack success rate even with a limited number of poisoned texts and significantly improved stealth compared to existing methods.
arxiv情報
著者 | Yang Jiao,Xiaodong Wang,Kai Yang |
発行日 | 2025-04-10 13:09:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google