要約
検索拡張生成 (RAG) は、幻覚問題や大規模な言語モデルのリアルタイム制約を解決するために適用されますが、検索破損攻撃に対する脆弱性も誘発します。
既存の研究では、主にホワイトボックスおよびクローズドドメインの QA タスクにおける RAG の信頼性の低さを調査しています。
この論文では、意見操作のためのブラックボックス攻撃に直面したときの検索強化生成 (RAG) モデルの脆弱性を明らかにすることを目的としています。
私たちは、このような攻撃がユーザーの認知や意思決定に及ぼす影響を調査し、RAG モデルの信頼性とセキュリティを強化するための新たな洞察を提供します。
RAG の検索モデルのランキング結果を命令で操作し、その結果をデータとして使用してサロゲート モデルを学習します。
サロゲートモデルに敵対的検索攻撃手法を採用することで、RAG に対するブラックボックス転送攻撃がさらに実現されます。
複数のトピックにわたる意見データセットに対して行われた実験では、提案された攻撃戦略が RAG によって生成されたコンテンツの意見の極性を大きく変える可能性があることを示しています。
これはモデルの脆弱性を示しており、さらに重要なことに、ユーザーの認知と意思決定に悪影響を与える可能性があり、ユーザーが誤った情報や偏った情報を受け入れるよう誤解しやすくなることが明らかになりました。
要約(オリジナル)
Retrieval-Augmented Generation (RAG) is applied to solve hallucination problems and real-time constraints of large language models, but it also induces vulnerabilities against retrieval corruption attacks. Existing research mainly explores the unreliability of RAG in white-box and closed-domain QA tasks. In this paper, we aim to reveal the vulnerabilities of Retrieval-Enhanced Generative (RAG) models when faced with black-box attacks for opinion manipulation. We explore the impact of such attacks on user cognition and decision-making, providing new insight to enhance the reliability and security of RAG models. We manipulate the ranking results of the retrieval model in RAG with instruction and use these results as data to train a surrogate model. By employing adversarial retrieval attack methods to the surrogate model, black-box transfer attacks on RAG are further realized. Experiments conducted on opinion datasets across multiple topics show that the proposed attack strategy can significantly alter the opinion polarity of the content generated by RAG. This demonstrates the model’s vulnerability and, more importantly, reveals the potential negative impact on user cognition and decision-making, making it easier to mislead users into accepting incorrect or biased information.
arxiv情報
著者 | Zhuo Chen,Jiawei Liu,Haotan Liu,Qikai Cheng,Fan Zhang,Wei Lu,Xiaozhong Liu |
発行日 | 2024-07-18 17:55:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google