Privacy-Preserving Retrieval-Augmented Generation with Differential Privacy

要約

最近の大規模な言語モデル(LLMS)の顕著な進歩により、トレーニングデータの外側にある非常に敏感なデータを持つドメインでそれらを利用することに関心が高まっています。
この目的のために、検索された生成(RAG)は特に効果的です。外部の知識ソースから関連情報を直接提供することでLLMSを支援します。
ただし、追加のプライバシーセーフガードがなければ、RAGは外部データソースから機密情報を漏らすリスクを出力します。
この作業では、データプライバシーの正式な保証である差動プライバシー(DP)の下でRAGを探ります。
差別的にプライベートなぼろきれを伴う主な課題は、中程度のプライバシー予算内で長い正確な回答を生成する方法です。
これに対処し、機密情報を必要とし、他のトークンに非プライベートLLMを使用するトークンにのみプライバシー予算をスマートに費やすアルゴリズムを提案します。
当社の広範な経験的評価は、私たちのアルゴリズムが、異なるモデルとデータセットにわたって$ \ epsilon \約10ドルの合理的なプライバシー予算の下で、非ラグベースラインを上回ることを明らかにしています。

要約(オリジナル)

With the recent remarkable advancement of large language models (LLMs), there has been a growing interest in utilizing them in the domains with highly sensitive data that lies outside their training data. For this purpose, retrieval-augmented generation (RAG) is particularly effective — it assists LLMs by directly providing relevant information from the external knowledge sources. However, without extra privacy safeguards, RAG outputs risk leaking sensitive information from the external data source. In this work, we explore RAG under differential privacy (DP), a formal guarantee of data privacy. The main challenge with differentially private RAG is how to generate long accurate answers within a moderate privacy budget. We address this by proposing an algorithm that smartly spends privacy budget only for the tokens that require the sensitive information and uses the non-private LLM for other tokens. Our extensive empirical evaluations reveal that our algorithm outperforms the non-RAG baseline under a reasonable privacy budget of $\epsilon\approx 10$ across different models and datasets.

arxiv情報

著者 Tatsuki Koga,Ruihan Wu,Kamalika Chaudhuri
発行日 2025-02-26 18:55:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR パーマリンク