Quantifying Memorization of Domain-Specific Pre-trained Language Models using Japanese Newspaper and Paywalls

要約

主要な事前トレーニング済み言語モデル (PLM) は、高品質の自然言語生成に成功しています。
しかし、彼らの世代の分析は成熟していません。彼らは一般化可能な言語抽象概念を獲得しているのでしょうか、それともトレーニング データの部分文字列を単に記憶して復元しているだけなのでしょうか。
特に、ドメイン固有の PLM に焦点を当てた研究はほとんどありません。
本研究では、日本の新聞記事の限られたコーパスを使用してドメイン固有の GPT-2 モデルを事前トレーニングし、一般的な日本語 GPT-2 モデルと比較することでトレーニング データの記憶を定量化しました。
私たちの実験では、ドメイン固有の PLM が大規模に「コピー アンド ペースト」を行う場合があることが明らかになりました。
さらに、以前の英語の研究と同様に、暗記が重複、モデルのサイズ、プロンプトの長さに関連しているという経験的発見を日本語でも再現しました。
私たちの評価は、トレーニング データとしての使用を妨げる新聞のペイウォールに焦点を当てることで、データ汚染の懸念から解放されます。
私たちは、この文書が PLM のセキュリティや著作権などの健全な議論を促進することを願っています。

要約(オリジナル)

Dominant pre-trained language models (PLMs) have been successful in high-quality natural language generation. However, the analysis of their generation is not mature: do they acquire generalizable linguistic abstractions, or do they simply memorize and recover substrings of the training data? Especially, few studies focus on domain-specific PLM. In this study, we pre-trained domain-specific GPT-2 models using a limited corpus of Japanese newspaper articles and quantified memorization of training data by comparing them with general Japanese GPT-2 models. Our experiments revealed that domain-specific PLMs sometimes ‘copy and paste’ on a large scale. Furthermore, we replicated the empirical finding that memorization is related to duplication, model size, and prompt length, in Japanese the same as in previous English studies. Our evaluations are relieved from data contamination concerns by focusing on newspaper paywalls, which prevent their use as training data. We hope that our paper encourages a sound discussion such as the security and copyright of PLMs.

arxiv情報

著者 Shotaro Ishihara
発行日 2024-04-26 04:12:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク