A Jailbroken GenAI Model Can Cause Substantial Harm: GenAI-powered Applications are Vulnerable to PromptWares

要約

この論文では、ジェイルブレイクされた GenAI モデルが GenAI 搭載アプリケーションに多大な損害を与え、GenAI モデルの動作をアプリケーションの提供から攻撃へと反転させる新しいタイプの攻撃である PromptWare を促進する可能性があると主張します。
PromptWare は、ユーザー入力を悪用して GenAI モデルを脱獄し、GenAI 搭載アプリケーションのコンテキスト内で悪意のあるアクティビティを強制/実行します。
まず、計画と実行のアーキテクチャ (別名、ReAct、関数呼び出し) をターゲットとするマルウェアとして動作する PromptWare の単純な実装を紹介します。
GenAI を利用したアプリケーションのロジックが攻撃者に知られている場合、攻撃者は目的の出力を生成するユーザー入力を作成することで、目的の実行フローを強制できることを示します。
GenAI を利用したアシスタントの実行をトリガーして無限ループに入り、GenAI エンジンへの冗長な API 呼び出しで資金と計算リソースを浪費し、アプリケーションがユーザーにサービスを提供できなくなる DoS 攻撃のアプリケーションをデモします。
次に、Advanced PromptWare Threat (APwT) と名付けた、PromptWare のより洗練された実装を紹介します。これは、攻撃者にとってロジックが未知の GenAI を利用したアプリケーションを標的とします。
私たちは、攻撃者が GenAI エンジンの高度な AI 機能を悪用するユーザー入力を作成して、特権の昇格、アプリケーションのコンテキストの分析、貴重な資産の特定、悪意のあるアクティビティの可能性を推論し、そのうちの 1 つを決定することを目的とした 6 つのステップで構成されるキル チェーンを推論時間内に開始できることを示します。
それらのうち、それを実行します。
GenAI を利用した電子商取引チャットボットに対する APwT の適用を実証し、APwT が SQL テーブルの変更をトリガーし、ユーザーに販売される商品の不正な割引につながる可能性があることを示します。

要約(オリジナル)

In this paper we argue that a jailbroken GenAI model can cause substantial harm to GenAI-powered applications and facilitate PromptWare, a new type of attack that flips the GenAI model’s behavior from serving an application to attacking it. PromptWare exploits user inputs to jailbreak a GenAI model to force/perform malicious activity within the context of a GenAI-powered application. First, we introduce a naive implementation of PromptWare that behaves as malware that targets Plan & Execute architectures (a.k.a., ReAct, function calling). We show that attackers could force a desired execution flow by creating a user input that produces desired outputs given that the logic of the GenAI-powered application is known to attackers. We demonstrate the application of a DoS attack that triggers the execution of a GenAI-powered assistant to enter an infinite loop that wastes money and computational resources on redundant API calls to a GenAI engine, preventing the application from providing service to a user. Next, we introduce a more sophisticated implementation of PromptWare that we name Advanced PromptWare Threat (APwT) that targets GenAI-powered applications whose logic is unknown to attackers. We show that attackers could create user input that exploits the GenAI engine’s advanced AI capabilities to launch a kill chain in inference time consisting of six steps intended to escalate privileges, analyze the application’s context, identify valuable assets, reason possible malicious activities, decide on one of them, and execute it. We demonstrate the application of APwT against a GenAI-powered e-commerce chatbot and show that it can trigger the modification of SQL tables, potentially leading to unauthorized discounts on the items sold to the user.

arxiv情報

著者 Stav Cohen,Ron Bitton,Ben Nassi
発行日 2024-08-09 13:32:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR パーマリンク