Quantifying Memorization and Detecting Training Data of Pre-trained Language Models using Japanese Newspaper

要約

主要な事前トレーニング済み言語モデル (PLM) は、トレーニング データを記憶して出力することの潜在的なリスクを実証しています。
この懸念は主に英語で議論されていますが、ドメイン固有の PLM に焦点を当てることも実際的に重要です。
この研究では、日本の新聞記事の限られたコーパスを使用してドメイン固有の GPT-2 モデルを事前トレーニングし、その動作を評価しました。
実験では、以前の英語の研究と同様に、PLM の暗記がトレーニング データの重複、モデル サイズ、プロンプトの長さに関連しているという経験的発見が日本語でも再現されました。
さらにメンバーシップ推論攻撃を試み、日本語でも英語と同様の傾向で学習データが検出できることを実証しました。
この調査では、ドメイン固有の PLM は貴重なプライベート データを使用してトレーニングされる場合があり、大規模な「コピー アンド ペースト」が可能であると警告しています。

要約(オリジナル)

Dominant pre-trained language models (PLMs) have demonstrated the potential risk of memorizing and outputting the training data. While this concern has been discussed mainly in English, it is also practically important to focus on domain-specific PLMs. In this study, we pre-trained domain-specific GPT-2 models using a limited corpus of Japanese newspaper articles and evaluated their behavior. Experiments replicated the empirical finding that memorization of PLMs is related to the duplication in the training data, model size, and prompt length, in Japanese the same as in previous English studies. Furthermore, we attempted membership inference attacks, demonstrating that the training data can be detected even in Japanese, which is the same trend as in English. The study warns that domain-specific PLMs, sometimes trained with valuable private data, can ”copy and paste” on a large scale.

arxiv情報

著者 Shotaro Ishihara,Hiromu Takahashi
発行日 2024-08-15 15:40:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク