要約
この論文では、非常に小さなデータセットに対して事前トレーニングされた大規模言語モデル (LLM) を過剰適合した直観に反する一般化の結果を紹介します。
オープンエンドのテキスト生成の設定では、LLM が反復的で鈍いシーケンスを生成する傾向があることが十分に文書化されており、この現象はグリーディ デコーディングを使用して生成する場合に特に顕著です。
この問題は、大規模なデータセットのネクストトークン予測によってトレーニングされた数十億のパラメーターを含む最先端の LLM であっても依然として発生します。
これらのモデルをさらに微調整して、少数のサンプル セットでほぼゼロのトレーニング損失を達成すること (ハイパーフィッティングと呼ぶプロセス) により、長いシーケンスの生成能力が大幅に強化されることがわかりました。
これらの Hyperfitted モデルを使用した貪欲なデコードは、多様性と人間の好みの両方の点で、長いシーケンスにわたる Top-P サンプリングよりも優れたパフォーマンスを発揮します。
この現象は、さまざまなサイズ、さまざまなドメイン、さらには自己回帰画像生成の LLM にまで及びます。
さらに、この現象はグロッキング現象や二重降下現象とは明らかに異なることがわかりました。
驚くべきことに、私たちの実験では、ハイパーフィットモデルがトレーニングに使用された繰り返しシーケンスに陥ることはほとんどなく、これらのシーケンスを明示的にブロックしても高品質の出力が得られることが示されました。
すべてのハイパーフィット モデルは非常に低いエントロピーの予測を生成し、多くの場合、ほぼすべての確率が 1 つのトークンに割り当てられます。
要約(オリジナル)
This paper introduces the counter-intuitive generalization results of overfitting pre-trained large language models (LLMs) on very small datasets. In the setting of open-ended text generation, it is well-documented that LLMs tend to generate repetitive and dull sequences, a phenomenon that is especially apparent when generating using greedy decoding. This issue persists even with state-of-the-art LLMs containing billions of parameters, trained via next-token prediction on large datasets. We find that by further fine-tuning these models to achieve a near-zero training loss on a small set of samples — a process we refer to as hyperfitting — the long-sequence generative capabilities are greatly enhanced. Greedy decoding with these Hyperfitted models even outperform Top-P sampling over long-sequences, both in terms of diversity and human preferences. This phenomenon extends to LLMs of various sizes, different domains, and even autoregressive image generation. We further find this phenomena to be distinctly different from that of Grokking and double descent. Surprisingly, our experiments indicate that hyperfitted models rarely fall into repeating sequences they were trained on, and even explicitly blocking these sequences results in high-quality output. All hyperfitted models produce extremely low-entropy predictions, often allocating nearly all probability to a single token.
arxiv情報
著者 | Fredrik Carlsson,Fangyu Liu,Daniel Ward,Murathan Kurfali,Joakim Nivre |
発行日 | 2024-12-05 16:34:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google