RAG with Differential Privacy

要約

検索拡張生成 (RAG) は、新鮮で関連性のあるコンテキストを \emph{大規模言語モデル} (LLM) に提供する主要な技術として浮上し、幻覚のリスクを軽減し、大規模で高速に移動する環境における応答の全体的な品質を向上させます。
知識ベース。
ただし、生成プロセスに外部ドキュメントを統合すると、プライバシーに関する重大な懸念が生じます。
実際、プロンプトに追加された場合、応答によって機密データが誤って公開され、プライバシー侵害や倫理的ジレンマの可能性が生じることがないことを保証することはできません。
このペーパーでは、個人データからの一般知識の抽出に適した、この問題に対する実用的な解決策を検討します。
これは、 \emph{差分プライベート トークン生成} がプライベート RAG への実行可能なアプローチであることを示しています。

要約(オリジナル)

Retrieval-Augmented Generation (RAG) has emerged as the dominant technique to provide \emph{Large Language Models} (LLM) with fresh and relevant context, mitigating the risk of hallucinations and improving the overall quality of responses in environments with large and fast moving knowledge bases. However, the integration of external documents into the generation process raises significant privacy concerns. Indeed, when added to a prompt, it is not possible to guarantee a response will not inadvertently expose confidential data, leading to potential breaches of privacy and ethical dilemmas. This paper explores a practical solution to this problem suitable to general knowledge extraction from personal data. It shows \emph{differentially private token generation} is a viable approach to private RAG.

arxiv情報

著者 Nicolas Grislain
発行日 2025-01-22 14:50:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.LG パーマリンク