A Practice of Post-Training on Llama-3 70B with Optimal Selection of Additional Language Mixture Ratio

要約

大規模言語モデル (LLM) は、不慣れな言語スキルを取得したり、新しい領域に適応したりするために、継続的な事前トレーニング (CPT) が必要になることがよくあります。
CPT のトレーニング コストは膨大であるため、追加の言語やドメイン コーパスの混合比など、主要なハイパーパラメータの慎重な選択が必要になることがよくあります。
しかし、最適な混合比と実際のモデルのパフォーマンスとの間のギャップ、および実験的なスケーリング則とフルモデルサイズでの実際の展開との間のギャップを埋める体系的な研究は存在しません。
この論文では、Llama-3 8B および 70B に対して CPT を実行し、中国語能力を強化します。
最適な実験設定を直接示す、8B サイズでの追加言語混合比 (ALMR) と学習率 (LR) の間の最適な相関関係を研究します。
ハイパーパラメータの徹底的な選択とその後の微調整により、モデルの機能は中国語関連のベンチマークだけでなく、数学、コーディング、心の知能指数などの特定の領域でも向上します。
LLM の最終 70B バージョンを実際のチャット システムに導入し、満足のいくパフォーマンスが得られます。

要約(オリジナル)

Large Language Models (LLM) often needs to be Continual Pre-Trained (CPT) to obtain the unfamiliar language skill or adapt into new domains. The huge training cost of CPT often asks for cautious choice of key hyper-parameters such as the mixture ratio of extra language or domain corpus. However, there is no systematic study which bridge the gap between the optimal mixture ratio and the actual model performance, and the gap between experimental scaling law and the actual deployment in the full model size. In this paper, we perform CPT on Llama-3 8B and 70B to enhance its Chinese ability. We study the optimal correlation between the Additional Language Mixture Ratio (ALMR) and the Learning Rate (LR) on the 8B size which directly indicate the optimal experimental set up. By thorough choice of hyper-parameter, and subsequent fine-tuning, the model capability is improved not only on the Chinese-related benchmark, but also some specific domains including math, coding and emotional intelligence. We deploy the final 70B version of LLM on an real-life chat system which obtain satisfying performance.

arxiv情報

著者 Ningyuan Xi,Yetao Wu,Kun Fan,Teng Chen,Qingqing Gu,Peng Yu,Jinxian Qu,Chenxi Liu,Zhonglin Jiang,Yong Chen,Luo Ji
発行日 2024-09-10 16:26:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク