Checkpoint Merging via Bayesian Optimization in LLM Pretraining

要約

GPT-4 や Gemini などの大規模言語モデル (LLM) の急速な普及は、トレーニング プロセス中のリソースに対する激しい需要を浮き彫りにしており、相当な計算コストと環境コストによる重大な課題を引き起こしています。
この問題を軽減するために、事前トレーニング LLM でのチェックポイントのマージを提案します。
この方法は、共有トレーニング軌跡を持つ LLM チェックポイントを利用し、ベイジアン最適化による最適な結合重みを求める広範な検索空間の探索に根ざしています。
さまざまな実験を通じて、私たちは次のことを実証します。(1) 私たちが提案する方法論は、事前トレーニングを強化する能力を示し、最小限のコストで実質的な利益を得るのと同様の機会を提供します。
(2) 私たちが提案する方法論は、特定の保持されたデータセットを必要とするにもかかわらず、事前トレーニングにおいて極めて重要な、多様なドメインにわたる堅牢な一般化機能を示しています。

要約(オリジナル)

The rapid proliferation of large language models (LLMs) such as GPT-4 and Gemini underscores the intense demand for resources during their training processes, posing significant challenges due to substantial computational and environmental costs. To alleviate this issue, we propose checkpoint merging in pretraining LLM. This method utilizes LLM checkpoints with shared training trajectories, and is rooted in an extensive search space exploration for the best merging weight via Bayesian optimization. Through various experiments, we demonstrate that: (1) Our proposed methodology exhibits the capacity to augment pretraining, presenting an opportunity akin to obtaining substantial benefits at minimal cost; (2) Our proposed methodology, despite requiring a given held-out dataset, still demonstrates robust generalization capabilities across diverse domains, a pivotal aspect in pretraining.

arxiv情報

著者 Deyuan Liu,Zecheng Wang,Bingning Wang,Weipeng Chen,Chunshan Li,Zhiying Tu,Dianhui Chu,Bo Li,Dianbo Sui
発行日 2024-03-28 13:01:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク