要約
大規模言語モデル (LLM) は、自然言語処理 (NLP) で優れたパフォーマンスを発揮するにもかかわらず、潜在的なセキュリティ脅威に関する懸念を引き起こしています。
バックドア攻撃は当初、LLM があらゆる段階で重大な害を及ぼしていることを確認しましたが、コストと堅牢性が批判されました。
LLM への攻撃は、セキュリティ レビューにおいて本質的にリスクを伴いますが、法外なコストがかかります。
さらに、LLM を継続的に反復すると、バックドアの堅牢性が低下します。
この論文では、検索拡張世代で共同バックドア攻撃を採用し、それによって普遍的な攻撃シナリオで LLM を操作する TrojanRAG を提案します。
具体的には、攻撃者は複雑なターゲット コンテキストとトリガー セットを構築します。
バックドア ショートカットの複数のペアは、対照学習によって直交的に最適化され、トリガー条件をパラメータ部分空間に制限してマッチングを向上させます。
ターゲット コンテキストの RAG の再現率を向上させるために、ナレッジ グラフを導入して構造化データを構築し、きめ細かいレベルでのハード マッチングを実現します。
さらに、LLM のバックドア シナリオを正規化し、攻撃者とユーザーの両方の観点からバックドアによって引き起こされる実際の害を分析し、そのコンテキストが脱獄モデルにとって有利なツールであるかどうかをさらに検証します。
真実性、言語理解、有害性に関する広範な実験結果は、TrojanRAG が通常のクエリでの検索機能を維持しながら多用途性の脅威を示すことを示しています。
要約(オリジナル)
Large language models (LLMs) have raised concerns about potential security threats despite performing significantly in Natural Language Processing (NLP). Backdoor attacks initially verified that LLM is doing substantial harm at all stages, but the cost and robustness have been criticized. Attacking LLMs is inherently risky in security review, while prohibitively expensive. Besides, the continuous iteration of LLMs will degrade the robustness of backdoors. In this paper, we propose TrojanRAG, which employs a joint backdoor attack in the Retrieval-Augmented Generation, thereby manipulating LLMs in universal attack scenarios. Specifically, the adversary constructs elaborate target contexts and trigger sets. Multiple pairs of backdoor shortcuts are orthogonally optimized by contrastive learning, thus constraining the triggering conditions to a parameter subspace to improve the matching. To improve the recall of the RAG for the target contexts, we introduce a knowledge graph to construct structured data to achieve hard matching at a fine-grained level. Moreover, we normalize the backdoor scenarios in LLMs to analyze the real harm caused by backdoors from both attackers’ and users’ perspectives and further verify whether the context is a favorable tool for jailbreaking models. Extensive experimental results on truthfulness, language understanding, and harmfulness show that TrojanRAG exhibits versatility threats while maintaining retrieval capabilities on normal queries.
arxiv情報
著者 | Pengzhou Cheng,Yidong Ding,Tianjie Ju,Zongru Wu,Wei Du,Ping Yi,Zhuosheng Zhang,Gongshen Liu |
発行日 | 2024-05-31 16:59:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google