要約
広く使用されている言語モデル (LM) は通常、2 段階のトレーニング パイプラインをスケールアップすることによって構築されます。1 つは非常に大規模で多様なテキスト データセットを使用する事前トレーニング ステージ、もう 1 つはテキストの微調整 (場合によっては「アライメント」) ステージです。
ターゲットを絞った例や、望ましい動作のその他の仕様。
知識とスキルは事前トレーニングから得られ、微調整によって主にこの知識とスキルセットがフィルタリングされるという仮説が立てられていますが、この直感は広範囲にわたってテストされていません。
これを支援するために、これら 2 つの段階で得られた知識とスキルを切り離すための新しい手法を導入します。これにより、「事前トレーニング中に大規模なモデルによって学習された知識を、
微調整中に小さなモデルによって学習された知識 (またはその逆)?
人間の好みから学習する最近の開発から派生した RL ベースのフレームワークを使用して、事前トレーニングの結果を近似する (または「エミュレート」する) 分布からサンプリングするための原理的かつ実践的な方法であるエミュレートされたファインチューニング (EFT) を導入します。
さまざまなスケールで微調整します。
EFT を使った実験では、微調整をスケールアップすると有用性が向上する傾向があり、事前トレーニングをスケールアップすると事実性が向上する傾向があることがわかりました。
デカップリングスケールを超えて、EFT により追加のトレーニングなしで有用性や無害性などの競合する行動特性をテスト時に調整できることを示します。
最後に、エミュレートされた微調整の特殊なケース (LM アップスケーリングと呼ばれます) は、事前にトレーニングされた大規模なモデルを小さな微調整モデルとアンサンブルすることでリソースを大量に消費する微調整を回避し、基本的に微調整の結果をエミュレートします。
大規模な事前トレーニング済みモデル。
アップスケーリングにより、追加のハイパーパラメータやトレーニングを必要とせずに、Llama、Llama-2、および Falcon ファミリの命令追従モデルの有用性と事実性が一貫して向上します。
要約(オリジナル)
Widely used language models (LMs) are typically built by scaling up a two-stage training pipeline: a pre-training stage that uses a very large, diverse dataset of text and a fine-tuning (sometimes, ‘alignment’) stage that uses targeted examples or other specifications of desired behaviors. While it has been hypothesized that knowledge and skills come from pre-training, and fine-tuning mostly filters this knowledge and skillset, this intuition has not been extensively tested. To aid in doing so, we introduce a novel technique for decoupling the knowledge and skills gained in these two stages, enabling a direct answer to the question, ‘What would happen if we combined the knowledge learned by a large model during pre-training with the knowledge learned by a small model during fine-tuning (or vice versa)?’ Using an RL-based framework derived from recent developments in learning from human preferences, we introduce emulated fine-tuning (EFT), a principled and practical method for sampling from a distribution that approximates (or ‘emulates’) the result of pre-training and fine-tuning at different scales. Our experiments with EFT show that scaling up fine-tuning tends to improve helpfulness, while scaling up pre-training tends to improve factuality. Beyond decoupling scale, we show that EFT enables test-time adjustment of competing behavioral traits like helpfulness and harmlessness without additional training. Finally, a special case of emulated fine-tuning, which we call LM up-scaling, avoids resource-intensive fine-tuning of large pre-trained models by ensembling them with small fine-tuned models, essentially emulating the result of fine-tuning the large pre-trained model. Up-scaling consistently improves helpfulness and factuality of instruction-following models in the Llama, Llama-2, and Falcon families, without additional hyperparameters or training.
arxiv情報
著者 | Eric Mitchell,Rafael Rafailov,Archit Sharma,Chelsea Finn,Christopher D. Manning |
発行日 | 2023-10-19 17:57:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google