Exploiting Instruction-Following Retrievers for Malicious Information Retrieval

要約

指導を提供するレトリバーは、実際のアプリケーションでLLMSとともに広く採用されていますが、検索機能の増加を取り巻く安全リスクを調査する作業はほとんどありません。
直接使用した場合と検索拡張生成ベースのセットアップで使用した場合の両方で、悪意のあるクエリを満たすレトリバーの能力を経験的に研究します。
具体的には、NV-embedおよびLLM2VECを含む6つの主要なレトリバーを調査し、悪意のあるリクエストが与えられた場合、ほとんどのレトリバーは(クエリの50%以上)関連する有害なパッセージを選択できることを発見しました。
たとえば、LLM2VECは、悪意のあるクエリの61.35%のパッセージを正しく選択します。
さらに、指導に応じた有害な情報を利用することで、命令に応じた有害な情報を浮上させることができる、指導に従うレトリバーで新たなリスクを明らかにします。
最後に、LLAMA3などの安全に配置されたLLMでさえ、文句内で有害な取得パッセージが提供された場合、悪意のあるリクエストを満たすことができることを示します。
要約すると、私たちの調査結果は、レトリーバー機能の増加に関連する悪意のある誤用のリスクを強調しています。

要約(オリジナル)

Instruction-following retrievers have been widely adopted alongside LLMs in real-world applications, but little work has investigated the safety risks surrounding their increasing search capabilities. We empirically study the ability of retrievers to satisfy malicious queries, both when used directly and when used in a retrieval augmented generation-based setup. Concretely, we investigate six leading retrievers, including NV-Embed and LLM2Vec, and find that given malicious requests, most retrievers can (for >50% of queries) select relevant harmful passages. For example, LLM2Vec correctly selects passages for 61.35% of our malicious queries. We further uncover an emerging risk with instruction-following retrievers, where highly relevant harmful information can be surfaced by exploiting their instruction-following capabilities. Finally, we show that even safety-aligned LLMs, such as Llama3, can satisfy malicious requests when provided with harmful retrieved passages in-context. In summary, our findings underscore the malicious misuse risks associated with increasing retriever capability.

arxiv情報

著者 Parishad BehnamGhader,Nicholas Meade,Siva Reddy
発行日 2025-03-11 17:36:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク