Scaling Laws for Downstream Task Performance of Large Language Models

要約

スケーリングの法則は、大規模言語モデル (LLM) の設計の指針となる重要な洞察を提供します。
既存の研究は主に、事前トレーニング (上流) 損失のスケーリング則の研究に焦点を当ててきました。
ただし、転移学習設定では、LLM が教師なしデータセットで事前トレーニングされ、その後下流タスクで微調整されるため、下流のパフォーマンスも気にすることがよくあります。
この研究では、LLM が機械翻訳タスク用に微調整される転移学習設定におけるスケーリング動作を研究します。
具体的には、事前トレーニング データの選択とそのサイズが、ダウンストリームのクロスエントロピーと BLEU スコアという 2 つの指標によって判断されるダウンストリームのパフォーマンス (翻訳品質) にどのような影響を与えるかを調査します。
私たちの実験では、微調整データセットのサイズと、事前トレーニング データと下流データの間の分布の調整がスケーリング動作に大きく影響することが示されています。
十分な調整が行われると、下流のクロスエントロピーと BLEU スコアの両方が、より多くの事前トレーニング データとともに単調に向上します。
このような場合、対数則を使用して下流の BLEU スコアを高い精度で予測できることを示します。
ただし、下流のクロスエントロピーが単調に改善する一方で、中程度のミスアライメントにより BLEU スコアが変動したり、事前トレーニングが増えると悪化したりするケースもあります。
これらの観察を分析することで、適切な事前トレーニング データを選択するための新しい実践的な洞察が得られます。

要約(オリジナル)

Scaling laws provide important insights that can guide the design of large language models (LLMs). Existing work has primarily focused on studying scaling laws for pretraining (upstream) loss. However, in transfer learning settings, in which LLMs are pretrained on an unsupervised dataset and then finetuned on a downstream task, we often also care about the downstream performance. In this work, we study the scaling behavior in a transfer learning setting, where LLMs are finetuned for machine translation tasks. Specifically, we investigate how the choice of the pretraining data and its size affect downstream performance (translation quality) as judged by two metrics: downstream cross-entropy and BLEU score. Our experiments indicate that the size of the finetuning dataset and the distribution alignment between the pretraining and downstream data significantly influence the scaling behavior. With sufficient alignment, both downstream cross-entropy and BLEU score improve monotonically with more pretraining data. In such cases, we show that it is possible to predict the downstream BLEU score with good accuracy using a log-law. However, there are also cases where moderate misalignment causes the BLEU score to fluctuate or get worse with more pretraining, whereas downstream cross-entropy monotonically improves. By analyzing these observations, we provide new practical insights for choosing appropriate pretraining data.

arxiv情報

著者 Berivan Isik,Natalia Ponomareva,Hussein Hazimeh,Dimitris Paparas,Sergei Vassilvitskii,Sanmi Koyejo
発行日 2024-02-06 17:31:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, stat.ML パーマリンク