RePCS: Diagnosing Data Memorization in LLM-Powered Retrieval-Augmented Generation

要約

検索された生成(RAG)は、現在の外部情報を使用して、大規模な言語モデル(LLM)応答を更新するための一般的な戦略となっています。
ただし、モデルは依然として記憶されたトレーニングデータに依存し、検索された証拠をバイパスし、汚染された出力を生成する場合があります。
モデルアクセスや再訓練を必要とせずにそのような動作を検出する診断方法である検索パス汚染スコアリング(REPCS)を導入します。
REPCSは、2つの推論パスを比較します。(i)クエリのみを使用したパラメトリックパス、および(ii)出力分布間のKullback-Leibler(kl)発散を計算することにより、クエリと取得コンテキストの両方を使用して検索されたパスを使用します。
低い発散は、検索されたコンテキストが最小限の影響を及ぼし、潜在的な暗記を示していることを示唆しています。
この手順はモデルに依存しており、勾配または内部の状態アクセスを必要とせず、追加のフォワードパスのみを追加します。
さらに、KLしきい値をユーザー定義の偽陽性および偽陰性率にリンクするPACスタイルの保証を導き出します。
プロンプトWNQAベンチマークでは、REPCSは0.918のROC-AUCを達成します。
この結果は、NVIDIA T4 GPUで4.7%未満の潜伏率を維持しながら、最強の事前の方法を6.5パーセントポイント上回ります。
REPCSは、軽量のブラックボックスセーフガードを提供して、RAGシステムが検索を有意に活用しているかどうかを確認し、安全性の高いアプリケーションで特に価値があります。

要約(オリジナル)

Retrieval-augmented generation (RAG) has become a common strategy for updating large language model (LLM) responses with current, external information. However, models may still rely on memorized training data, bypass the retrieved evidence, and produce contaminated outputs. We introduce Retrieval-Path Contamination Scoring (RePCS), a diagnostic method that detects such behavior without requiring model access or retraining. RePCS compares two inference paths: (i) a parametric path using only the query, and (ii) a retrieval-augmented path using both the query and retrieved context by computing the Kullback-Leibler (KL) divergence between their output distributions. A low divergence suggests that the retrieved context had minimal impact, indicating potential memorization. This procedure is model-agnostic, requires no gradient or internal state access, and adds only a single additional forward pass. We further derive PAC-style guarantees that link the KL threshold to user-defined false positive and false negative rates. On the Prompt-WNQA benchmark, RePCS achieves a ROC-AUC of 0.918. This result outperforms the strongest prior method by 6.5 percentage points while keeping latency overhead below 4.7% on an NVIDIA T4 GPU. RePCS offers a lightweight, black-box safeguard to verify whether a RAG system meaningfully leverages retrieval, making it especially valuable in safety-critical applications.

arxiv情報

著者 Le Vu Anh,Nguyen Viet Anh,Mehmet Dik,Luong Van Nghia
発行日 2025-06-18 14:48:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク