Did the Neurons Read your Book? Document-level Membership Inference for Large Language Models

要約

大規模言語モデル (LLM) が私たちの日常生活に組み込まれようとしており、それらが学習したデータセットについて疑問が生じ始めています。
これらの質問は、LLM がトレーニング データから保持する可能性のある潜在的なバイアスや誤った情報から、著作権や人間が作成したテキストの公正使用の問題まで多岐にわたります。
しかし、こうした疑問が浮上する一方で、最近の最先端の LLM の開発者は、トレーニング コーパスの詳細を開示することにますます消極的になっています。
ここでは、現実世界の LLM のドキュメント レベルのメンバーシップ推論のタスク、つまり LLM がトレーニング中に特定のドキュメントを見たかどうかを推論するタスクを紹介します。
まず、トレーニングとモデルのリリース日に一般的に使用されるデータ ソースを活用することにより、LLM のドキュメント レベルのメンバーシップ推論の開発と評価の手順を提案します。
次に、文書レベルのメンバーシップを予測し、書籍と学術論文の両方を OpenLLaMA-7B 上でインスタンス化するための実用的なブラックボックス手法を提案します。
私たちの方法論は非常に優れたパフォーマンスを示しており、書籍では 0.856、論文では 0.678 という素晴らしい AUC に達しています。
次に、プライバシー文献で文書レベルのメンバーシップ タスクに使用される文レベルのメンバーシップ推論攻撃を上回るパフォーマンスを発揮するアプローチを示します。
最後に、より小さいモデルはドキュメントレベルの推論に対する感度が低いかどうかを評価し、OpenLLaMA-3B が私たちのアプローチに対して OpenLLaMA-7B とほぼ同じ感度であることを示します。
総合すると、私たちの結果は、LLM の正確なドキュメント レベルのメンバーシップを推測できること、そして私たちの生活を変える準備ができているテクノロジーの透明性を高めることができることを示しています。

要約(オリジナル)

With large language models (LLMs) poised to become embedded in our daily lives, questions are starting to be raised about the dataset(s) they learned from. These questions range from potential bias or misinformation LLMs could retain from their training data to questions of copyright and fair use of human-generated text. However, while these questions emerge, developers of the recent state-of-the-art LLMs become increasingly reluctant to disclose details on their training corpus. We here introduce the task of document-level membership inference for real-world LLMs, i.e. inferring whether the LLM has seen a given document during training or not. First, we propose a procedure for the development and evaluation of document-level membership inference for LLMs by leveraging commonly used data sources for training and the model release date. We then propose a practical, black-box method to predict document-level membership and instantiate it on OpenLLaMA-7B with both books and academic papers. We show our methodology to perform very well, reaching an impressive AUC of 0.856 for books and 0.678 for papers. We then show our approach to outperform the sentence-level membership inference attacks used in the privacy literature for the document-level membership task. We finally evaluate whether smaller models might be less sensitive to document-level inference and show OpenLLaMA-3B to be approximately as sensitive as OpenLLaMA-7B to our approach. Taken together, our results show that accurate document-level membership can be inferred for LLMs, increasing the transparency of technology poised to change our lives.

arxiv情報

著者 Matthieu Meeus,Shubham Jain,Marek Rei,Yves-Alexandre de Montjoye
発行日 2023-10-23 15:00:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR, cs.LG パーマリンク