CAIN: Hijacking LLM-Humans Conversations via a Two-Stage Malicious System Prompt Generation and Refining Framework

要約

大規模な言語モデル(LLM)は多くのアプリケーションを進めてきましたが、敵対的な攻撃に対して脆弱であることも知られています。
この作業では、新しいセキュリティの脅威を紹介します。LLMSのシステムを操作することにより、AIと人間の会話をハイジャックして、特定のターゲットの質問に対してのみ悪意のある回答を作成するようにプロンプ​​トします(たとえば、「米国大統領に投票すべきか」、「covidワクチンは安全ですか?」)。
この攻撃は、悪意のある俳優が有害でありながら良心的なシステムプロンプトをオンラインで広めることにより、大規模な情報操作を行使できるため、有害です。
このような攻撃を実証するために、Cainを開発します。Cainは、ブラックボックス設定での特定のターゲット質問のこのような有害なシステムプロンプトを自動的にキュレートすることができるアルゴリズムを開発します。
オープンソースと商業用LLMの両方で評価されたCainは、大きな敵対的な影響を示しています。
ターゲットの攻撃やLLMSに誤った回答を出力するように強制されている場合、Cainはターゲットの質問に対して最大40%のF1分解を達成し、良性の入力の高精度を維持します。
ターゲットを絞った攻撃またはLLMに特定の有害な回答を出力するように強制するために、Cainはこれらのターゲット応答で70%以上のF1スコアを達成し、良性の質問への影響を最小限に抑えます。
私たちの結果は、実際のアプリケーションにおけるLLMの完全性と安全性を保護するための強化された堅牢性測定の重要な必要性を強調しています。
すべてのソースコードが公開されます。

要約(オリジナル)

Large language models (LLMs) have advanced many applications, but are also known to be vulnerable to adversarial attacks. In this work, we introduce a novel security threat: hijacking AI-human conversations by manipulating LLMs’ system prompts to produce malicious answers only to specific targeted questions (e.g., ‘Who should I vote for US President?’, ‘Are Covid vaccines safe?’), while behaving benignly on others. This attack is detrimental as it can enable malicious actors to exercise large-scale information manipulation by spreading harmful but benign-looking system prompts online. To demonstrate such an attack, we develop CAIN, an algorithm that can automatically curate such harmful system prompts for a specific target question in a black-box setting or without the need to access the LLM’s parameters. Evaluated on both open-source and commercial LLMs, CAIN demonstrates significant adversarial impact. In untargeted attacks or forcing LLMs to output incorrect answers, CAIN achieves up to 40% F1 degradation on targeted questions while preserving high accuracy on benign inputs. For targeted attacks or forcing LLMs to output specific harmful answers, CAIN achieves over 70% F1 scores on these targeted responses with minimal impact on benign questions. Our results highlight the critical need for enhanced robustness measures to safeguard the integrity and safety of LLMs in real-world applications. All source code will be publicly available.

arxiv情報

著者 Viet Pham,Thai Le
発行日 2025-05-22 16:47:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR パーマリンク