OpenRLHF: An Easy-to-use, Scalable and High-performance RLHF Framework

要約

大規模言語モデル(LLM)がスケーリング法則によって成長し続ける中、人間のフィードバックからの強化学習(RLHF)は、その卓越した性能から大きな注目を集めている。しかし、単一のモデルの事前学習や微調整とは異なり、大規模言語モデルを学習するための人間のフィードバックからの強化学習(RLHF)のスケーリングは、4つのモデル間の調整課題を提起する。我々は、効率的なRLHFのスケーリングを可能にするオープンソースのフレームワークであるOpenRLHFを発表する。OpenRLHFは、4つのモデルを同じGPU上に配置する既存のRLHFフレームワークとは異なり、Ray、vLLM、DeepSpeedを使用して、70Bパラメータを超えるモデルのスケジューリングを再設計し、リソースの利用率の向上と多様な学習アプローチを活用します。Hugging Faceとシームレスに統合されたOpenRLHFは、最適化されたアルゴリズムと起動スクリプトを備えたすぐに使えるソリューションを提供し、ユーザーの使いやすさを保証します。OpenRLHFはRLHF、DPO、拒絶サンプリング、その他のアライメント技術を実装しています。OpenRLHFのコードはhttps://github.com/OpenLLMAI/OpenRLHF。

要約(オリジナル)

As large language models (LLMs) continue to grow by scaling laws, reinforcement learning from human feedback (RLHF) has gained significant attention due to its outstanding performance. However, unlike pretraining or fine-tuning a single model, scaling reinforcement learning from human feedback (RLHF) for training large language models poses coordination challenges across four models. We present OpenRLHF, an open-source framework enabling efficient RLHF scaling. Unlike existing RLHF frameworks that co-locate four models on the same GPUs, OpenRLHF re-designs scheduling for the models beyond 70B parameters using Ray, vLLM, and DeepSpeed, leveraging improved resource utilization and diverse training approaches. Integrating seamlessly with Hugging Face, OpenRLHF provides an out-of-the-box solution with optimized algorithms and launch scripts, which ensures user-friendliness. OpenRLHF implements RLHF, DPO, rejection sampling, and other alignment techniques. Empowering state-of-the-art LLM development, OpenRLHF’s code is available at https://github.com/OpenLLMAI/OpenRLHF.

arxiv情報

著者 Jian Hu,Xibin Wu,Weixun Wang,Xianyu,Dehao Zhang,Yu Cao
発行日 2024-06-03 12:19:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク