The Curious Decline of Linguistic Diversity: Training Language Models on Synthetic Text

要約

この研究では、人間が生成したトレーニング データの限られた供給に対処することを目的として、ますます普及している実践である、前任者によって生成された合成データに対する大規模言語モデル (LLM) のトレーニングの結果を調査します。
パフォーマンス指標を重視する通常の強調から離れて、特に時間をかけて再帰的に実施した場合の、言語の多様性に対するこのトレーニング方法論の影響に焦点を当てます。
これを評価するために、私たちは語彙、構文、意味の多様性を対象とした一連の新しい指標を開発し、それらをさまざまな自然言語生成タスクにわたる再帰的微調整実験に適用しました。
私たちの調査結果では、連続的な反復を通じてモデルの出力の多様性が著しく減少していることが明らかになりました。
この傾向は、特に言語の豊かさの保持に関して、前任者が生成したテキストに基づいて LLM をトレーニングすることの潜在的なリスクを強調しています。
私たちの研究は、LLM の言語能力に対するこのようなトレーニングアプローチの長期的な影響を慎重に検討する必要があることを強調しています。

要約(オリジナル)

This study investigates the consequences of training large language models (LLMs) on synthetic data generated by their predecessors, an increasingly prevalent practice aimed at addressing the limited supply of human-generated training data. Diverging from the usual emphasis on performance metrics, we focus on the impact of this training methodology on linguistic diversity, especially when conducted recursively over time. To assess this, we developed a set of novel metrics targeting lexical, syntactic, and semantic diversity, applying them in recursive fine-tuning experiments across various natural language generation tasks. Our findings reveal a marked decrease in the diversity of the models’ outputs through successive iterations. This trend underscores the potential risks of training LLMs on predecessor-generated text, particularly concerning the preservation of linguistic richness. Our study highlights the need for careful consideration of the long-term effects of such training approaches on the linguistic capabilities of LLMs.

arxiv情報

著者 Yanzhu Guo,Guokan Shang,Michalis Vazirgiannis,Chloé Clavel
発行日 2023-11-16 11:31:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク