Balancing Continuous Pre-Training and Instruction Fine-Tuning: Optimizing Instruction-Following in LLMs

要約

公共で使用する大規模言語モデル (LLM) では、最新のデータを最新の状態に保つために継続的な事前トレーニングが必要です。
指示に正確に従う能力を維持するには、モデルを特定の指示で微調整する必要もあります。
通常、LLM は 2 つのバージョンでリリースされます。1 つはさまざまなデータで事前トレーニングされた Base LLM、もう 1 つは指示に従うようになるために特定の指示でさらにトレーニングされた、命令リファインド LLM です。
最新のデータを最新の状態に保ちながら、指示に従う能力を維持するには、どのモデルが継続的な事前トレーニングを受ける必要があるかという疑問が生じます。
この研究では、LLM の継続的な事前トレーニングと指示の微調整の間の複雑な関係を掘り下げ、ベ​​ースとその指示の微調整されたモデルの両方の指示に従う能力に対する継続的な事前トレーニングの影響を調査します。
さらに、命令の微調整プロセスは大量の計算を必要とするため、モデルを効果的に学習するには、手作業で注釈を付けたサンプルが相当数必要になります。
この研究は、命令データや微調整を必要とせずに、最新の知識と命令追従機能を獲得するための最も計算効率の高い戦略を見つけることを目的としています。
LLaMa 3、3.1 および Qwen 2、2.5 ファミリーのベースおよび命令モデルに関する発見を経験的に証明し、さまざまなサイズの事前トレーニング データ コーパスとさまざまな LLM 設定にわたる仮説の包括的な調査を提供します。

要約(オリジナル)

Large Language Models (LLMs) for public use require continuous pre-training to remain up-to-date with the latest data. The models also need to be fine-tuned with specific instructions to maintain their ability to follow instructions accurately. Typically, LLMs are released in two versions: the Base LLM, pre-trained on diverse data, and the instruction-refined LLM, additionally trained with specific instructions for better instruction following. The question arises as to which model should undergo continuous pre-training to maintain its instruction-following abilities while also staying current with the latest data. In this study, we delve into the intricate relationship between continuous pre-training and instruction fine-tuning of the LLMs and investigate the impact of continuous pre-training on the instruction following abilities of both the base and its instruction finetuned model. Further, the instruction fine-tuning process is computationally intense and requires a substantial number of hand-annotated examples for the model to learn effectively. This study aims to find the most compute-efficient strategy to gain up-to-date knowledge and instruction-following capabilities without requiring any instruction data and fine-tuning. We empirically prove our findings on the LLaMa 3, 3.1 and Qwen 2, 2.5 family of base and instruction models, providing a comprehensive exploration of our hypotheses across varying sizes of pre-training data corpus and different LLMs settings.

arxiv情報

著者 Ishan Jindal,Chandana Badrinath,Pranjal Bharti,Lakkidi Vinay,Sachin Dev Sharma
発行日 2024-10-14 17:20:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク