Regurgitative Training: The Value of Real Data in Training Large Language Models

要約

他の LLM によって少なくとも部分的に生成されたデータを使用して、新しい大規模言語モデル (LLM) をトレーニングするとどうなるでしょうか?
LLM の爆発的な成功は、オンラインの相当量のコンテンツが人間ではなく LLM によって生成され、必然的に次世代 LLM のトレーニング データセットに組み込まれることを意味します。
私たちは、このような「逆流トレーニング」が LLM のパフォーマンスに及ぼす影響を評価します。
機械翻訳タスクにおいて、GPT-3.5 自体または他の LLM によって生成されたデータを使用して GPT-3.5 を微調整することにより、逆流トレーニングが明らかに LLM のパフォーマンスを阻害するという強力な証拠が見つかりました。
逆流トレーニングと同じパフォーマンスの低下が、最初からトレーニングした変圧器モデルでも観察されます。
私たちは、逆流トレーニングのパフォーマンス上の不利な点が、少なくとも 2 つのメカニズムに起因している可能性があるという示唆に富む証拠を発見しました。(1) 実際のデータと比較して、LLM で生成されたデータの誤り率が高いこと、および (2) 語彙の多様性が低いことです。
これらのメカニズムに基づいて、逆流トレーニングのパフォーマンス低下を軽減するための 3 つの異なる戦略を提案し、評価します。
まず、LLM によって生成された各データ インスタンスの品質を測定するデータ駆動型のメトリクスを考案し、次に高品質のデータを低品質のデータの前に追加する順序付けられたトレーニング プロセスを実行します。
2 番目に、(語彙の多様性を高めるための試みとして) 複数の異なる LLM によって生成されたデータを結合します。
3 番目に、LLM 生成データと人間生成データを区別するように AI 検出分類器をトレーニングし、LLM 生成データを人間生成データに類似する順に含めます。
3 つの戦略はすべて、逆流トレーニングのパフォーマンスをある程度向上させることができますが、実際のデータを使用したトレーニングとの差を常に完全に埋めることができるわけではありません。
私たちの結果は、LLM のトレーニングにおける人間が生成した実際のデータの価値を浮き彫りにしており、LLM が生成した合成データでは簡単に置き換えることができません。

要約(オリジナル)

What happens if we train a new Large Language Model (LLM) using data that are at least partially generated by other LLMs? The explosive success of LLMs means that a substantial amount of content online will be generated by LLMs rather than humans, which will inevitably enter the training datasets of next-generation LLMs. We evaluate the implications of such ‘regurgitative training’ on LLM performance. Through fine-tuning GPT-3.5 with data generated either by itself or by other LLMs in a machine translation task, we find strong evidence that regurgitative training clearly handicaps the performance of LLMs. The same performance loss of regurgitative training is observed on transformer models that we train from scratch. We find suggestive evidence that the performance disadvantage of regurgitative training can be attributed to at least two mechanisms: (1) higher error rates and (2) lower lexical diversity in LLM-generated data as compared to real data. Based on these mechanisms, we propose and evaluate three different strategies to mitigate the performance loss of regurgitative training. First, we devise data-driven metrics to gauge the quality of each LLM-generated data instance, and then carry out an ordered training process where high-quality data are added before low-quality ones. Second, we combine data generated by multiple different LLMs (as an attempt to increase lexical diversity). Third, we train an AI detection classifier to differentiate between LLM- and human-generated data, and include LLM-generated data in the order of resemblance to human-generated data. All three strategies can improve the performance of regurgitative training to some extent but are not always able to fully close the gap from training with real data. Our results highlight the value of real, human-generated data in training LLMs, which cannot be easily substituted by synthetic, LLM-generated data.

arxiv情報

著者 Jinghui Zhang,Dandan Qiao,Mochen Yang,Qiang Wei
発行日 2024-07-25 16:50:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, stat.ML パーマリンク