要約
デンス・レトリーバーは、さまざまな情報検索タスクにおいて最先端のパフォーマンスを達成していますが、実際のアプリケーションにどの程度安全に導入できるのでしょうか?
この研究では、悪意のあるユーザーが離散トークンを混乱させることによって少数の敵対的なパッセージを生成し、提供されたトレーニング クエリのセットとの類似性を最大化する、高密度検索システムに対する新しい攻撃を提案します。
これらの敵対的な文章が大規模な検索コーパスに挿入されると、この攻撃はこれらのシステムをだまして、攻撃者が認識していないクエリを検索するのに非常に効果的であることがわかります。
さらに驚くべきことに、これらの敵対的な文章は、高い攻撃成功率でドメイン外のクエリやコーパスに直接一般化することができます。たとえば、自然な質問に最適化されて生成された 50 の文章は、財務書類で提起された質問の 94% 以上を誤解させる可能性があることがわかりました。
またはオンラインフォーラム。
また、教師なしと教師ありのさまざまな最先端のデンスレトリーバーのベンチマークと比較も行います。
さまざまなシステムがさまざまなレベルの脆弱性を示しますが、最大 500 パッセージを挿入することですべてのシステムが攻撃に成功できることを示しました。これは、数百万パッセージの検索コーパスと比較するとほんの一部です。
要約(オリジナル)
Dense retrievers have achieved state-of-the-art performance in various information retrieval tasks, but to what extent can they be safely deployed in real-world applications? In this work, we propose a novel attack for dense retrieval systems in which a malicious user generates a small number of adversarial passages by perturbing discrete tokens to maximize similarity with a provided set of training queries. When these adversarial passages are inserted into a large retrieval corpus, we show that this attack is highly effective in fooling these systems to retrieve them for queries that were not seen by the attacker. More surprisingly, these adversarial passages can directly generalize to out-of-domain queries and corpora with a high success attack rate — for instance, we find that 50 generated passages optimized on Natural Questions can mislead >94% of questions posed in financial documents or online forums. We also benchmark and compare a range of state-of-the-art dense retrievers, both unsupervised and supervised. Although different systems exhibit varying levels of vulnerability, we show they can all be successfully attacked by injecting up to 500 passages, a small fraction compared to a retrieval corpus of millions of passages.
arxiv情報
著者 | Zexuan Zhong,Ziqing Huang,Alexander Wettig,Danqi Chen |
発行日 | 2023-10-29 21:13:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google