Phantom: General Trigger Attacks on Retrieval Augmented Language Generation

要約

検索拡張生成 (RAG) は、最も関連性の高い知識ソースへの応答を固定、適応、およびパーソナライズすることにより、最新の大規模言語モデル (LLM) の機能を拡張します。
これはチャットボット アプリケーションで特に役立ち、開発者は費用のかかる再トレーニングを行わずに LLM 出力をカスタマイズできます。
RAG システムはさまざまなアプリケーションで非常に有用であるにもかかわらず、新たなセキュリティ リスクをもたらします。
この研究では、攻撃者が 1 つの悪意のあるドキュメントを RAG システムのナレッジ ベースに挿入し、バックドア ポイズニング攻撃を仕掛けることを可能にする新しい攻撃ベクトルを提案します。
私たちは、RAG システムに対する一般的な 2 段階の最適化フレームワークである Phantom を設計します。これは、モデルの出力の整合性違反につながる悪意のある汚染されたドキュメントを作成します。
まず、文書は、トークンの特定のトリガー シーケンスが被害者のクエリに現れた場合にのみ取得されるように構築されています。
次に、文書は、回答の拒否、風評被害、プライバシー侵害、有害な行為など、LLM 出力にさまざまな敵対的な目的を誘発する、巧妙に作られた敵対的なテキストでさらに最適化されます。
Gemma、Vicuna、Llama を含む複数の LLM アーキテクチャに対する攻撃を実証し、それらが GPT-3.5 Turbo および GPT-4 に転送されることを示します。
最後に、NVIDIA のブラックボックス プロダクション RAG システム「Chat with RTX」に対するファントム攻撃を実行することに成功しました。

要約(オリジナル)

Retrieval Augmented Generation (RAG) expands the capabilities of modern large language models (LLMs), by anchoring, adapting, and personalizing their responses to the most relevant knowledge sources. It is particularly useful in chatbot applications, allowing developers to customize LLM output without expensive retraining. Despite their significant utility in various applications, RAG systems present new security risks. In this work, we propose new attack vectors that allow an adversary to inject a single malicious document into a RAG system’s knowledge base, and mount a backdoor poisoning attack. We design Phantom, a general two-stage optimization framework against RAG systems, that crafts a malicious poisoned document leading to an integrity violation in the model’s output. First, the document is constructed to be retrieved only when a specific trigger sequence of tokens appears in the victim’s queries. Second, the document is further optimized with crafted adversarial text that induces various adversarial objectives on the LLM output, including refusal to answer, reputation damage, privacy violations, and harmful behaviors. We demonstrate our attacks on multiple LLM architectures, including Gemma, Vicuna, and Llama, and show that they transfer to GPT-3.5 Turbo and GPT-4. Finally, we successfully conducted a Phantom attack on NVIDIA’s black-box production RAG system, ‘Chat with RTX’.

arxiv情報

著者 Harsh Chaudhari,Giorgio Severi,John Abascal,Matthew Jagielski,Christopher A. Choquette-Choo,Milad Nasr,Cristina Nita-Rotaru,Alina Oprea
発行日 2024-10-15 15:56:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR, cs.LG パーマリンク