The Curious Decline of Linguistic Diversity: Training Language Models on Synthetic Text

要約

この研究では、前任者によって生成された合成データに基づいて言語モデルをトレーニングした場合の結果を調査します。これは、強力な生成モデルの卓越性を考慮して、ますます普及している手法です。
パフォーマンス指標を重視する通常の強調から離れて、特に時間をかけて再帰的に実施した場合の、言語の多様性に対するこのトレーニング方法論の影響に焦点を当てます。
これを評価するために、語彙、構文、意味の多様性を対象とした一連の新しい指標を適応および開発し、それらを英語のさまざまな自然言語生成タスクにわたる再帰的微調整実験に適用します。
私たちの調査結果では、連続的な反復を通じてモデル出力の多様性が一貫して減少していることが明らかになり、特に高いレベルの創造性が要求されるタスクでは顕著です。
この傾向は、特に言語の豊かさの保持に関して、合成テキストで言語モデルをトレーニングすることの潜在的なリスクを強調しています。
私たちの研究は、言語モデルの言語能力に対するこのようなトレーニングアプローチの長期的な影響を慎重に検討する必要があることを強調しています。

要約(オリジナル)

This study investigates the consequences of training language models on synthetic data generated by their predecessors, an increasingly prevalent practice given the prominence of powerful generative models. Diverging from the usual emphasis on performance metrics, we focus on the impact of this training methodology on linguistic diversity, especially when conducted recursively over time. To assess this, we adapt and develop a set of novel metrics targeting lexical, syntactic, and semantic diversity, applying them in recursive finetuning experiments across various natural language generation tasks in English. Our findings reveal a consistent decrease in the diversity of the model outputs through successive iterations, especially remarkable for tasks demanding high levels of creativity. This trend underscores the potential risks of training language models on synthetic text, particularly concerning the preservation of linguistic richness. Our study highlights the need for careful consideration of the long-term effects of such training approaches on the linguistic capabilities of language models.

arxiv情報

著者 Yanzhu Guo,Guokan Shang,Michalis Vazirgiannis,Chloé Clavel
発行日 2024-04-16 15:57:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク