Do Language Models Plagiarize?

要約

過去の文献では、言語モデル (LM) がトレーニング インスタンスの一部を記憶し、自然言語生成 (NLG) プロセスでそれらを再現することが多いことが示されています。
ただし、LM がトレーニング コーパスをどの程度「再利用」するかは不明です。
たとえば、モデルは、トレーニング サンプルに文脈的に類似した言い換え文を生成できます。
したがって、この作業では、トレーニング データと比較して、GPT-2 で生成されたテキストの中で 3 種類の盗作 (つまり、逐語的、言い換え、およびアイデア) を研究し、ドメインを使用して微調整された LM の盗作パターンをさらに分析します。
実際に広く使用されている特定のコーパス。
私たちの結果は、(1) 暗記を超えて LM に 3 種類の盗作が広く存在すること、(2) LM のサイズとデコード方法の両方が、LM が示す盗作の程度と強く関連していること、および (3) 微調整された LM の盗作パターンであることを示唆しています。
コーパスの類似性と均一性に基づいて異なります。
LM のトレーニング データの大部分が、コンテンツ所有者に通知することなく Web からスクレイピングされていることを考えると、トレーニング セットから生成されたテキストに単語、フレーズ、さらにはコア アイデアを繰り返すことは、倫理的な意味を持ちます。
LM のサイズとトレーニング データの両方が増加するにつれて、パターンは悪化する可能性が高く、より大きなトレーニング コーパスを使用してより大きなモデルを無差別に追求することへの懸念が生じます。
盗用されたコンテンツには、個人の個人情報や機密情報が含まれている場合もあります。
これらの調査結果は全体として、ミッション クリティカルな書き込みタスクにおける現在の LM の実用性に疑問を投げかけ、観察された現象に関するより多くの議論を促します。
データとソース コードは、https://github.com/Brit7777/LM-plagiarism で入手できます。

要約(オリジナル)

Past literature has illustrated that language models (LMs) often memorize parts of training instances and reproduce them in natural language generation (NLG) processes. However, it is unclear to what extent LMs ‘reuse’ a training corpus. For instance, models can generate paraphrased sentences that are contextually similar to training samples. In this work, therefore, we study three types of plagiarism (i.e., verbatim, paraphrase, and idea) among GPT-2 generated texts, in comparison to its training data, and further analyze the plagiarism patterns of fine-tuned LMs with domain-specific corpora which are extensively used in practice. Our results suggest that (1) three types of plagiarism widely exist in LMs beyond memorization, (2) both size and decoding methods of LMs are strongly associated with the degrees of plagiarism they exhibit, and (3) fine-tuned LMs’ plagiarism patterns vary based on their corpus similarity and homogeneity. Given that a majority of LMs’ training data is scraped from the Web without informing content owners, their reiteration of words, phrases, and even core ideas from training sets into generated texts has ethical implications. Their patterns are likely to exacerbate as both the size of LMs and their training data increase, raising concerns about indiscriminately pursuing larger models with larger training corpora. Plagiarized content can also contain individuals’ personal and sensitive information. These findings overall cast doubt on the practicality of current LMs in mission-critical writing tasks and urge more discussions around the observed phenomena. Data and source code are available at https://github.com/Brit7777/LM-plagiarism.

arxiv情報

著者 Jooyoung Lee,Thai Le,Jinghui Chen,Dongwon Lee
発行日 2023-02-13 21:05:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク