Unleashing Worms and Extracting Data: Escalating the Outcome of Attacks against RAG-based Inference in Scale and Severity Using Jailbreaking

要約

この論文では、GenAI モデルをジェイルブレイクする機能により、攻撃者が RAG ベースの GenAI を利用したアプリケーションに対する攻撃の結果を深刻度と規模で拡大できることを示します。
論文の最初の部分では、攻撃者が RAG メンバーシップ推論攻撃と RAG エンティティ抽出攻撃を RAG ドキュメント抽出攻撃にエスカレートし、既存の攻撃と比較してより深刻な結果をもたらす可能性があることを示します。
3 つの抽出方法から得られた結果、使用された 5 つの埋め込みアルゴリズムの種類とサイズの影響、提供されたコンテキストのサイズ、および GenAI エンジンを評価します。
攻撃者は、Q&A チャットボットの RAG によって使用されるデータベースに保存されているデータの 80% ~ 99.8% を抽出できることを示します。
論文の後半では、攻撃者が RAG データポイズニング攻撃の規模を、単一の GenAI を利用したアプリケーションの侵害から GenAI エコシステム全体の侵害にまでエスカレートさせ、より大規模な被害を強いることができることを示します。
これは、エコシステム内でコンピューター ワームの連鎖反応を引き起こし、影響を受ける各アプリケーションに悪意のあるアクティビティを強制的に実行させ、追加のアプリケーションの RAG を侵害する、敵対的な自己複製プロンプトを作成することによって行われます。
GenAI を利用した電子メール アシスタントの GenAI エコシステム内でユーザーに関する機密データ抽出のチェーンを作成する際のワームのパフォーマンスを評価し、ワームのパフォーマンスがコンテキストのサイズ、敵対的自己複製プロンプトによってどのような影響を受けるかを分析します。
使用される埋め込みアルゴリズムのタイプとサイズ、伝播のホップ数。
最後に、RAG ベースの推論を保護するためのガードレールを確認および分析し、トレードオフについて説明します。

要約(オリジナル)

In this paper, we show that with the ability to jailbreak a GenAI model, attackers can escalate the outcome of attacks against RAG-based GenAI-powered applications in severity and scale. In the first part of the paper, we show that attackers can escalate RAG membership inference attacks and RAG entity extraction attacks to RAG documents extraction attacks, forcing a more severe outcome compared to existing attacks. We evaluate the results obtained from three extraction methods, the influence of the type and the size of five embeddings algorithms employed, the size of the provided context, and the GenAI engine. We show that attackers can extract 80%-99.8% of the data stored in the database used by the RAG of a Q&A chatbot. In the second part of the paper, we show that attackers can escalate the scale of RAG data poisoning attacks from compromising a single GenAI-powered application to compromising the entire GenAI ecosystem, forcing a greater scale of damage. This is done by crafting an adversarial self-replicating prompt that triggers a chain reaction of a computer worm within the ecosystem and forces each affected application to perform a malicious activity and compromise the RAG of additional applications. We evaluate the performance of the worm in creating a chain of confidential data extraction about users within a GenAI ecosystem of GenAI-powered email assistants and analyze how the performance of the worm is affected by the size of the context, the adversarial self-replicating prompt used, the type and size of the embeddings algorithm employed, and the number of hops in the propagation. Finally, we review and analyze guardrails to protect RAG-based inference and discuss the tradeoffs.

arxiv情報

著者 Stav Cohen,Ron Bitton,Ben Nassi
発行日 2024-09-12 13:50:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR パーマリンク