要約
高密度埋め込みベースのテキスト検索$\unicode{x2013}$深層学習エンコーディングを介したコーパスから関連する文章の検索$\unicode{x2013}$は、最先端の検索結果を取得し、その使用を普及させる強力な方法として浮上しました。
検索拡張生成 (RAG) の。
それでも、他の検索方法と同様、埋め込みベースの検索は検索エンジン最適化 (SEO) 攻撃の影響を受けやすい可能性があります。SEO 攻撃では、敵対者がコーパスに敵対的な文章を導入することで悪意のあるコンテンツを宣伝します。
このようなシステムの SEO に対する感受性を忠実に評価して洞察を得るために、この研究では、コーパスの内容に依存したりモデルを変更したりすることなく、敵対的なパッセージを生成するための数学的原理に基づいた勾配ベースの検索方法である GASLITE 攻撃を提案しています。
特に、GASLITE のパッセージは、(1) 敵対者が選択した情報を伝え、(2) コーパスに挿入された場合、選択されたクエリ分布に対して高い検索ランキングを達成します。
私たちは GASLITE を使用してレトリーバーの堅牢性を広範囲に評価し、さまざまな脅威モデルの下で 9 つの高度なモデルをテストしながら、特定の概念 (有名人など) に関するクエリをターゲットとする現実的な敵に焦点を当てています。
GASLITE は、すべての設定において $\geq$140% の成功率でベースラインを常に上回っていることがわかりました。
特に、GASLITE を使用する敵対者は、無視できる量の敵対的なパッセージ (コーパスの $\leq$0.0001%) を挿入するだけで、検索結果を操作するのに最小限の労力で済みます$\unicode{x2013}$。
ほとんどの評価モデルに対して、目に見えないコンセプト固有のクエリが 61 ~ 100% 発生しました。
レトリーバーの堅牢性の分散を検査することで、埋め込み空間のジオメトリの特定のプロパティなど、モデルの SEO に対する感受性に寄与する可能性のある主要な要因を特定します。
要約(オリジナル)
Dense embedding-based text retrieval$\unicode{x2013}$retrieval of relevant passages from corpora via deep learning encodings$\unicode{x2013}$has emerged as a powerful method attaining state-of-the-art search results and popularizing the use of Retrieval Augmented Generation (RAG). Still, like other search methods, embedding-based retrieval may be susceptible to search-engine optimization (SEO) attacks, where adversaries promote malicious content by introducing adversarial passages to corpora. To faithfully assess and gain insights into the susceptibility of such systems to SEO, this work proposes the GASLITE attack, a mathematically principled gradient-based search method for generating adversarial passages without relying on the corpus content or modifying the model. Notably, GASLITE’s passages (1) carry adversary-chosen information while (2) achieving high retrieval ranking for a selected query distribution when inserted to corpora. We use GASLITE to extensively evaluate retrievers’ robustness, testing nine advanced models under varied threat models, while focusing on realistic adversaries targeting queries on a specific concept (e.g., a public figure). We found GASLITE consistently outperformed baselines by $\geq$140% success rate, in all settings. Particularly, adversaries using GASLITE require minimal effort to manipulate search results$\unicode{x2013}$by injecting a negligible amount of adversarial passages ($\leq$0.0001% of the corpus), they could make them visible in the top-10 results for 61-100% of unseen concept-specific queries against most evaluated models. Inspecting variance in retrievers’ robustness, we identify key factors that may contribute to models’ susceptibility to SEO, including specific properties in the embedding space’s geometry.
arxiv情報
| 著者 | Matan Ben-Tov,Mahmood Sharif |
| 発行日 | 2024-12-30 13:49:28+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google