ReaL: Efficient RLHF Training of Large Language Models with Parameter Reallocation

要約

人間のフィードバック(RLHF)からの強化学習は、大規模な言語モデル(LLM)アプリケーションに力を与えるための極めて重要な手法です。
LLMSの監視されたトレーニングプロセスと比較して、RLHFトレーニングプロセスははるかに洗練されており、複数のLLMインスタンス間の複雑な依存関係を備えた多様な計算ワークロードが必要です。
したがって、LLMSの監視されたトレーニングから固定並列化戦略を単に採用するだけでは、RLHFにとって不十分であり、トレーニング効率が低くなる可能性があります。
この制限を克服するために、Parameter Reallocationという名前の新しい手法を提案します。これは、トレーニングクラスター全体でLLMパラメーターを再配布することにより、トレーニング中にさまざまなワークロードの並列化戦略を動的に適合させます。
このアイデアに基づいて、効率的なRLHFトレーニングのための先駆的なシステムであるRealを紹介します。
Realは、RLHFトレーニングのために特に設計された微調整されたリソース割り当てと並列化戦略を定義する実行計画の概念を紹介します。
この概念に基づいて、Realは軽量の実行時間推定器を備えたテーラード検索アルゴリズムを採用して、RLHF実験のインスタンスの効率的な実行計画を自動的に発見します。
その後、ランタイムエンジンは、計算を効果的に並列化し、パラメーターを再配布することにより、選択した計画を展開します。
最大700億パラメーターと128 GPUを持つLlamaモデルでRealを評価します。
実験結果は、Realがベースラインメソッドと比較して最大$ 3.58 \ Times $のスピードアップを達成することを示しています。
さらに、Realによって生成された実行計画は、長いコンテキストシナリオのMegatron-LMに基づくヒューリスティックアプローチよりも平均81ドルのパフォーマンス改善を示しています。
REALソースコードは、https://github.com/openpsi-project/realhfで公開されています。

要約(オリジナル)

Reinforcement Learning from Human Feedback (RLHF) is a pivotal technique for empowering large language model (LLM) applications. Compared with the supervised training process of LLMs, the RLHF training process is much more sophisticated, requiring a diverse range of computation workloads with intricate dependencies between multiple LLM instances. Therefore, simply adopting the fixed parallelization strategies from supervised training for LLMs can be insufficient for RLHF and result in low training efficiency. To overcome this limitation, we propose a novel technique named parameter ReaLlocation, which dynamically adapts the parallelization strategies for different workloads during training by redistributing LLM parameters across the training cluster. Building upon this idea, we introduce ReaL, a pioneering system for efficient RLHF training. ReaL introduces the concept of an execution plan, which defines a fine-grained resource allocation and parallelization strategy particularly designed for RLHF training. Based on this concept, ReaL employs a tailored search algorithm with a lightweight run-time estimator to automatically discover an efficient execution plan for an instance of RLHF experiment. Subsequently, the runtime engine deploys the selected plan by effectively parallelizing computations and redistributing parameters. We evaluate ReaL on the LLaMA models with up to 70 billion parameters and 128 GPUs. The experimental results demonstrate that ReaL achieves speedups of up to $3.58\times$ compared to baseline methods. Furthermore, the execution plans generated by ReaL exhibit an average of $81\%$ performance improvement over heuristic approaches based on Megatron-LM in the long-context scenario. The source code of ReaL is publicly available at https://github.com/openpsi-project/ReaLHF .

arxiv情報

著者 Zhiyu Mei,Wei Fu,Kaiwei Li,Guangju Wang,Huanchen Zhang,Yi Wu
発行日 2025-04-24 13:24:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.DC, cs.LG パーマリンク