要約
強化学習(RL)は、大規模な言語モデル(LLMS)のコアポストトレーニング技術となっています。
LLMSのRLには、生成とトレーニングの2つの段階が含まれます。
LLMは最初にオンラインでサンプルを生成し、次にトレーニングの報酬を導き出すために使用されます。
従来のビューでは、2つの段階が時間的多重化を介してリソースを共有するコロケートされたアーキテクチャが、各ステージに専用のリソースが割り当てられる分解されたアーキテクチャを上回ると考えています。
ただし、現実世界の展開では、2つの段階が同じリソースを使用するように制約されているリソースカップリングに悩まされていることがわかります。
この結合は、大規模なトレーニングにおけるコロッケートRLのスケーラビリティと費用効率を損ないます。
対照的に、分解されたアーキテクチャは、柔軟なリソースの割り当てを可能にし、異質なトレーニングセットアップをサポートし、外国間展開を促進します。
StreamRLは、最初の原則からの分解で設計されており、既存の分解されたRLフレームワークの2種類のパフォーマンスボトルネックに対処することにより、その可能性を完全にロック解除します。段階依存性によって引き起こされるパイプラインバブルと、長期の出力長分布に起因する歪度バブルです。
パイプラインバブルに対処するために、StreamRLは、ストリーム生成を通じて同期RLアルゴリズムの従来のステージ境界を破壊し、非同期RLで完全に重複します。
歪度の泡に対処するために、StreamRLは出力の長さのランカーモデルを採用して長期尾のサンプルを特定し、歪度を認識した派遣とスケジューリングを介して生成時間を短縮します。
実験は、StreamRLが既存の最先端のシステムと比較して最大2.66倍にスループットを改善し、不均一な異常な劣性設定で最大1.33倍の費用対効果を向上させることを示しています。
要約(オリジナル)
Reinforcement learning (RL) has become the core post-training technique for large language models (LLMs). RL for LLMs involves two stages: generation and training. The LLM first generates samples online, which are then used to derive rewards for training. The conventional view holds that the colocated architecture, where the two stages share resources via temporal multiplexing, outperforms the disaggregated architecture, in which dedicated resources are assigned to each stage. However, in real-world deployments, we observe that the colocated architecture suffers from resource coupling, where the two stages are constrained to use the same resources. This coupling compromises the scalability and cost-efficiency of colocated RL in large-scale training. In contrast, the disaggregated architecture allows for flexible resource allocation, supports heterogeneous training setups, and facilitates cross-datacenter deployment. StreamRL is designed with disaggregation from first principles and fully unlocks its potential by addressing two types of performance bottlenecks in existing disaggregated RL frameworks: pipeline bubbles, caused by stage dependencies, and skewness bubbles, resulting from long-tail output length distributions. To address pipeline bubbles, StreamRL breaks the traditional stage boundary in synchronous RL algorithms through stream generation and achieves full overlapping in asynchronous RL. To address skewness bubbles, StreamRL employs an output-length ranker model to identify long-tail samples and reduces generation time via skewness-aware dispatching and scheduling. Experiments show that StreamRL improves throughput by up to 2.66x compared to existing state-of-the-art systems, and improves cost-effectiveness by up to 1.33x in a heterogeneous, cross-datacenter setting.
arxiv情報
著者 | Yinmin Zhong,Zili Zhang,Xiaoniu Song,Hanpeng Hu,Chao Jin,Bingyang Wu,Nuo Chen,Yukun Chen,Yu Zhou,Changyi Wan,Hongyu Zhou,Yimin Jiang,Yibo Zhu,Daxin Jiang |
発行日 | 2025-04-22 14:19:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google