SoK: Membership Inference Attacks on LLMs are Rushing Nowhere (and How to Fix It)

要約

LLMがプライバシーの漏れの測定から著作権違反の検出まで、トレーニングデータとこれが何を意味するかを記憶するかどうかは、急速に成長する研究分野になりました。
過去数か月で、LLMに対してメンバーシップ推論攻撃(MIA)を実行するための10を超える新しい方法が提案されています。
固定されているがランダム化された記録またはモデルに依存している従来のMIAに反して、これらの方法は主に訓練され、事後収集されたデータセットでテストされています。
MIAの評価に使用されるメンバーと非会員のセットは、モデルのリリース後に情報に基づいた推測を使用して構築されます。
このランダム化の欠如は、メンバーと非会員の間の分布シフトの懸念を引き起こします。
この作業では、最初にLLMSに対するMIAに関する文献を広範囲にレビューし、ほとんどの作業は事後のセットアップで評価されたシーケンスレベルのMIAに焦点を当てているが、さまざまなターゲットモデル、動機、関心のある単位が考慮されることを示しています。
次に、単語分類器のモデルレスバッグを使用して文献に使用される6つのデータセットに存在する分布シフトを定量化し、事後に構築されたすべてのデータセットが強力な分布シフトに苦しんでいることを示します。
これらのシフトは、実際のシナリオで強く記憶するLLMの主張を無効にし、潜在的に、これらのデータセットに基づいた最近の論文の方法論的貢献も潜在的に貢献します。
しかし、すべての希望は失われないかもしれません。
LLMSに対してMIAを適切に評価するための重要な考慮事項を導入し、潜在的な前進方法について説明します。ランダム化テストスプリット、無作為化(一意の)配列の注入、無作為化微調整、およびいくつかの事後制御方法。
各オプションにはその利点と制限が付いていますが、MIAの開発を導き、LLMの暗記を研究するための堅実な根拠をまとめて提供していると考えています。
締めくくり、LLMに対するベンチマークシーケンスレベルおよびドキュメントレベルのMIAに対する推奨アプローチの概要を説明します。

要約(オリジナル)

Whether LLMs memorize their training data and what this means, from measuring privacy leakage to detecting copyright violations, has become a rapidly growing area of research. In the last few months, more than 10 new methods have been proposed to perform Membership Inference Attacks (MIAs) against LLMs. Contrary to traditional MIAs which rely on fixed-but randomized-records or models, these methods are mostly trained and tested on datasets collected post-hoc. Sets of members and non-members, used to evaluate the MIA, are constructed using informed guesses after the release of a model. This lack of randomization raises concerns of a distribution shift between members and non-members. In this work, we first extensively review the literature on MIAs against LLMs and show that, while most work focuses on sequence-level MIAs evaluated in post-hoc setups, a range of target models, motivations and units of interest are considered. We then quantify distribution shifts present in 6 datasets used in the literature using a model-less bag of word classifier and show that all datasets constructed post-hoc suffer from strong distribution shifts. These shifts invalidate the claims of LLMs memorizing strongly in real-world scenarios and, potentially, also the methodological contributions of the recent papers based on these datasets. Yet, all hope might not be lost. We introduce important considerations to properly evaluate MIAs against LLMs and discuss, in turn, potential ways forwards: randomized test splits, injections of randomized (unique) sequences, randomized fine-tuning, and several post-hoc control methods. While each option comes with its advantages and limitations, we believe they collectively provide solid grounds to guide MIA development and study LLM memorization. We conclude with an overview of recommended approaches to benchmark sequence-level and document-level MIAs against LLMs.

arxiv情報

著者 Matthieu Meeus,Igor Shilov,Shubham Jain,Manuel Faysse,Marek Rei,Yves-Alexandre de Montjoye
発行日 2025-03-07 16:30:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR, cs.LG パーマリンク