要約
大規模言語モデル (LLM) のトレーニングに関する一般の主な懸念は、LLM が著作権で保護されたオンライン テキストを悪用していないかどうかです。
以前のメンバーシップ推論方法は、膨大な量のトレーニング データ内の同様の例によって誤解される可能性があります。
さらに、これらの方法は多くの場合、一般ユーザーが理解して使用するには複雑すぎるため、集中化し、透明性や信頼性に欠けます。
これらの問題に対処するために、私たちは代わりの \textit{挿入と検出} 方法論を提案し、Web ユーザーとコンテンツ プラットフォームが信頼性の高い独立したメンバーシップ推論のために \textbf{\textit{一意の識別子}} を採用することを提唱します。
ユーザーとプラットフォームは独自の識別子を作成し、著作権で保護されたテキストに埋め込み、将来の LLM で独自に検出できます。
最初のデモンストレーションとして、一意の識別子の原始的な形式である \textit{ゴースト センテンス} を紹介します。これは主にランダムな単語で構成されるパスフレーズで構成されます。
著作権で保護されたいくつかのテキストに 1 つのゴースト センテンスを埋め込むことで、ユーザーは、困惑度テストと \textit{ユーザーフレンドリーな} last-$k$ 単語テストを使用して、そのメンバーシップを検出できます。
混乱度テストは、自然言語でトレーニングされた LLM が不自然なパスフレーズに遭遇したときに高い混乱度を示すはずであるという事実に基づいています。
繰り返しが増えると、ユーザーは LLM の逐語的記憶機能を活用して、コードを書かずに LLM とチャットすることで最後の $k$ 単語のテストを実行できます。
どちらのテストでも、メンバーシップ推論に対する厳密な統計的保証が提供されます。
LLaMA-13B の場合、148,000 例で平均 7 回繰り返した 30 個のゴースト センテンスに対するパープレキシティ テストでは、0.891 ROC AUC が得られます。
OpenLLaMA-3B を使用した最後の $k$ 単語テストでは、16 人のユーザー中 11 人が、それぞれ平均 24 個のサンプルを使用して、180 万個のサンプルからデータを識別することに成功しました。
要約(オリジナル)
A major public concern regarding the training of large language models (LLMs) is whether they abusing copyrighted online text. Previous membership inference methods may be misled by similar examples in vast amounts of training data. Additionally, these methods are often too complex for general users to understand and use, making them centralized, lacking transparency, and trustworthiness. To address these issues, we propose an alternative \textit{insert-and-detection} methodology, advocating that web users and content platforms employ \textbf{\textit{unique identifiers}} for reliable and independent membership inference. Users and platforms can create their own identifiers, embed them in copyrighted text, and independently detect them in future LLMs. As an initial demonstration, we introduce \textit{ghost sentences}, a primitive form of unique identifiers, consisting primarily of passphrases made up of random words. By embedding one ghost sentences in a few copyrighted texts, users can detect its membership using a perplexity test and a \textit{user-friendly} last-$k$ words test. The perplexity test is based on the fact that LLMs trained on natural language should exhibit high perplexity when encountering unnatural passphrases. As the repetition increases, users can leverage the verbatim memorization ability of LLMs to perform a last-$k$ words test by chatting with LLMs without writing any code. Both tests offer rigorous statistical guarantees for membership inference. For LLaMA-13B, a perplexity test on 30 ghost sentences with an average of 7 repetitions in 148K examples yields a 0.891 ROC AUC. For the last-$k$ words test with OpenLLaMA-3B, 11 out of 16 users, with an average of 24 examples each, successfully identify their data from 1.8M examples.
arxiv情報
著者 | Shuai Zhao,Linchao Zhu,Ruijie Quan,Yi Yang |
発行日 | 2024-08-12 08:21:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google