Amuro & Char: Analyzing the Relationship between Pre-Training and Fine-Tuning of Large Language Models

要約

大規模な言語モデルの開発は、「事前トレーニングしてから調整する」パラダイムの形成につながります。このパラダイムでは、通常、モデルは大規模なテキスト コーパスで事前トレーニングされ、人間の好みや下流のタスクにモデルを調整するための調整段階が行われます。

この研究では、複数の中間事前トレーニング モデル チェックポイントを微調整することにより、事前トレーニングと微調整の関係を調査します。
18 のデータセットに関する私たちの結果は、i) 継続的な事前トレーニングにより、微調整後に明らかになる潜在的な方法でモデルを改善することを示唆しています。
ii) 追加の微調整により、モデルが能力を実証していないデータセットは、事前トレーニング段階でモデルが適切に機能するデータセットよりも大幅に向上します。
iii) モデルは教師付き微調整によって大幅に利益を得ることができますが、以前に知られていた領域の知識や微調整中には表示されなかったタスクが忘れられる可能性があります。
iv) モデルは教師付き微調整後の評価プロンプトに対する感度が高いように見えますが、この感度は事前トレーニングを増やすことで緩和できます。

要約(オリジナル)

The development of large language models leads to the formation of a pre-train-then-align paradigm, in which the model is typically pre-trained on a large text corpus and undergoes a tuning stage to align the model with human preference or downstream tasks. In this work, we investigate the relationship between pre-training and fine-tuning by fine-tuning multiple intermediate pre-trained model checkpoints. Our results on 18 datasets suggest that i) continual pre-training improves the model in a latent way that unveils after fine-tuning; ii) with extra fine-tuning, the datasets that the model does not demonstrate capability gain much more than those that the model performs well during the pre-training stage; iii) although model benefits significantly through supervised fine-tuning, it may forget previously known domain knowledge and the tasks that are not seen during fine-tuning; iv) the model resembles high sensitivity to evaluation prompts after supervised fine-tuning, but this sensitivity can be alleviated by more pre-training.

arxiv情報

著者 Kaiser Sun,Mark Dredze
発行日 2024-08-14 15:23:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク