Con-ReCall: Detecting Pre-training Data in LLMs via Contrastive Decoding

要約

大規模な言語モデルのトレーニング データが成功の鍵となりますが、機密情報が含まれる可能性があるため、プライバシーとセキュリティのリスクも伴います。
こうした懸念を軽減するには、トレーニング前のデータを検出することが重要です。
既存の方法は通常、ターゲット テキストを単独で、または非メンバー コンテキストのみで分析し、メンバー コンテキストと非メンバー コンテキストの両方を同時に考慮することで得られる潜在的な洞察を見落としています。
以前の研究では、メンバー コンテキストが引き起こすわずかな分布の変化により、メンバー コンテキストからはほとんど情報が得られないことが示唆されていましたが、今回の分析では、非メンバー コンテキストと対比すると、これらの微妙な変化が効果的に活用できることが明らかになりました。
この論文では、対照的なデコードを通じてメンバーと非メンバーのコンテキストによって引き起こされる非対称分布シフトを活用し、微妙な違いを増幅してメンバーシップ推論を強化する新しいアプローチである Con-ReCall を提案します。
広範な実証的評価により、Con-ReCall が WikiMIA ベンチマークで最先端のパフォーマンスを達成し、さまざまなテキスト操作手法に対して堅牢であることが実証されています。

要約(オリジナル)

The training data in large language models is key to their success, but it also presents privacy and security risks, as it may contain sensitive information. Detecting pre-training data is crucial for mitigating these concerns. Existing methods typically analyze target text in isolation or solely with non-member contexts, overlooking potential insights from simultaneously considering both member and non-member contexts. While previous work suggested that member contexts provide little information due to the minor distributional shift they induce, our analysis reveals that these subtle shifts can be effectively leveraged when contrasted with non-member contexts. In this paper, we propose Con-ReCall, a novel approach that leverages the asymmetric distributional shifts induced by member and non-member contexts through contrastive decoding, amplifying subtle differences to enhance membership inference. Extensive empirical evaluations demonstrate that Con-ReCall achieves state-of-the-art performance on the WikiMIA benchmark and is robust against various text manipulation techniques.

arxiv情報

著者 Cheng Wang,Yiwei Wang,Bryan Hooi,Yujun Cai,Nanyun Peng,Kai-Wei Chang
発行日 2024-09-05 09:10:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク