要約
現実世界における大規模言語モデル (LLM) の急増に伴い、インターネットからのライセンスのないデータを使用してモデルをトレーニングしたとして企業に対する著作権訴訟が増加しています。
最近の研究では、メンバーシップ推論攻撃 (MIA) として知られる、個々のテキスト シーケンスがモデルのトレーニング データのメンバーであるかどうかを識別する方法が提示されました。
我々は、これらの MIA の見かけの成功は、メンバーとは異なる分布に属する非メンバー (トレーニングに使用されないテキスト シーケンス) を選択することによって混乱することを示します (たとえば、モデルのトレーニングに使用されたものと比較して、最近の Wikipedia 記事を時間的にシフトしたものなど)。
この分布の変化により、メンバーシップ推論が成功したように見えます。
ただし、ほとんどの MIA 手法は、同じ分布 (たとえば、この場合は同じ期間) からメンバーと非メンバーを区別する場合、ランダムな推測と同等のパフォーマンスを発揮します。
MIA が機能する場合でも、異なる MIA が異なる分布からサンプルのメンバーシップを推測することに成功することがわかります。
代わりに、大規模な言語モデルのトレーニングに使用されるデータセットを正確に識別するための新しいデータセット推論方法を提案します。
このパラダイムは、現代の著作権環境に現実的に当てはまります。著者らは、特定の 1 つの段落ではなく、自分が書いた複数の文書 (書籍など) に対して LLM がトレーニングされると主張しています。
データセット推論にはメンバーシップ推論の課題の多くが共通していますが、特定の分布に対して正のシグナルを提供する MIA を選択的に組み合わせ、それらを集約して特定のデータセットに対して統計検定を実行することで、この課題を解決します。
私たちのアプローチは、統計的に有意な p 値 < 0.1 で、偽陽性なしで、パイルの異なるサブセットのトレーニング セットとテスト セットを区別することに成功しました。
要約(オリジナル)
The proliferation of large language models (LLMs) in the real world has come with a rise in copyright cases against companies for training their models on unlicensed data from the internet. Recent works have presented methods to identify if individual text sequences were members of the model’s training data, known as membership inference attacks (MIAs). We demonstrate that the apparent success of these MIAs is confounded by selecting non-members (text sequences not used for training) belonging to a different distribution from the members (e.g., temporally shifted recent Wikipedia articles compared with ones used to train the model). This distribution shift makes membership inference appear successful. However, most MIA methods perform no better than random guessing when discriminating between members and non-members from the same distribution (e.g., in this case, the same period of time). Even when MIAs work, we find that different MIAs succeed at inferring membership of samples from different distributions. Instead, we propose a new dataset inference method to accurately identify the datasets used to train large language models. This paradigm sits realistically in the modern-day copyright landscape, where authors claim that an LLM is trained over multiple documents (such as a book) written by them, rather than one particular paragraph. While dataset inference shares many of the challenges of membership inference, we solve it by selectively combining the MIAs that provide positive signal for a given distribution, and aggregating them to perform a statistical test on a given dataset. Our approach successfully distinguishes the train and test sets of different subsets of the Pile with statistically significant p-values < 0.1, without any false positives.
arxiv情報
著者 | Pratyush Maini,Hengrui Jia,Nicolas Papernot,Adam Dziedzic |
発行日 | 2024-06-10 16:34:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google