SoK: Membership Inference Attacks on LLMs are Rushing Nowhere (and How to Fix It)

要約

LLM がトレーニング データを記憶しているかどうか、またプライバシーの漏洩から著作権侵害の検出まで、これが何を意味するかについては、過去 2 年間で急速に成長している研究分野となっています。
ここ数か月で、LLM に対してメンバーシップ推論攻撃 (MIA) を実行するための 10 を超える新しい方法が提案されています。
固定ではあるがランダム化されたレコードやモデルに依存する従来の MIA とは対照的に、これらの手法はほとんどが事後的に収集されたデータセットに基づいて評価されます。
MIA の評価に使用されるメンバーと非メンバーのセットは、モデルのリリース後に情報に基づいた推測を使用して構築されます。
このランダム化の欠如により、会員と非会員の間で分布が変化するという懸念が生じます。
最初の部分では、LLM に対する MIA に関する文献をレビューします。
ほとんどの研究は事後設定で評価されるシーケンスレベルの MIA に焦点を当てていますが、文献ではさまざまなターゲットモデル、動機、および対象単位が考慮されていることを示します。
次に、書籍から論文に至るまでの文献で使用されている 6 つのデータセットに存在する分布の変化を、bag of word 分類器を使用して定量化します。
私たちの分析により、それらすべてが深刻な分布の変化に悩まされていることが明らかになりました。
これは、LLM 記憶を測定するためにそのような設定を使用することの妥当性に疑問を投げかけ、最近提案された方法のベンチマークを損なう可能性があります。
しかし、すべての希望が失われるわけではないかもしれません。
2 番目の部分では、LLM に対して MIA を適切に評価するための重要な考慮事項を紹介し、ランダム化されたテスト分割、ランダム化された (一意の) シーケンスの注入、ランダム化された微調整、ポストホック制御方法など、今後の可能性のある方法について説明します。
各オプションには利点と制限がありますが、これらが総合的に MIA メソッドの開発を導き、LLM 暗記を研究するための確かな根拠を提供すると私たちは信じています。
最後に、LLM に対するシーケンス レベルおよびドキュメント レベルの MIA の包括的で使いやすいベンチマークを提案します。

要約(オリジナル)

Whether LLMs memorize their training data and what this means, from privacy leakage to detecting copyright violations — has become a rapidly growing area of research over the last two years. In recent months, more than 10 new methods have been proposed to perform Membership Inference Attacks (MIAs) against LLMs. Contrary to traditional MIAs which rely on fixed — but randomized — records or models, these methods are mostly evaluated on datasets collected post-hoc. Sets of members and non-members, used to evaluate the MIA, are constructed using informed guesses after the release of a model. This lack of randomization raises concerns of a distribution shift between members and non-members. In the first part, we review the literature on MIAs against LLMs. While most work focuses on sequence-level MIAs evaluated in post-hoc setups, we show that a range of target models, motivations and units of interest have been considered in the literature. We then quantify distribution shifts present in the 6 datasets used in the literature, ranging from books to papers, using a bag of word classifier. Our analysis reveals that all of them suffer from severe distribution shifts. This challenges the validity of using such setups to measure LLM memorization and may undermine the benchmarking of recently proposed methods. Yet, all hope might not be lost. In the second part, we introduce important considerations to properly evaluate MIAs against LLMs and discuss potential ways forward: randomized test splits, injections of randomized (unique) sequences, randomized finetuning, and post-hoc control methods. While each option comes with its advantages and limitations, we believe they collectively provide solid grounds to guide the development of MIA methods and study LLM memorization. We conclude by proposing comprehensive, easy-to-use benchmarks for sequence- and document-level MIAs against LLMs.

arxiv情報

著者 Matthieu Meeus,Igor Shilov,Shubham Jain,Manuel Faysse,Marek Rei,Yves-Alexandre de Montjoye
発行日 2024-10-07 17:49:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR, cs.LG パーマリンク