要約
この論文では、\ textbf {\ textsc {fastCurl}}を提案します。
特に1.5Bパラメーター言語モデルを使用した、概念の根拠。
\ textBf {\ textSc {fastCurl}}は、長さを認識しているトレーニングデータセグメンテーションとコンテキストウィンドウ拡張トレーニングの2つの主要な手順で構成されています。
具体的には、前者は最初に元のトレーニングデータを入力プロンプトの長さによって3つの異なるレベルに分割し、次に、推論モデルをトレーニングするためにコンテキストウィンドウの長さが徐々に増加するセグメント化されたトレーニングデータセットをレバレッジします。
実験結果は、\ textbf {\ textsc {fastcurl}} -1.5b-previewが50個のデータセット(Math 500、AIME 2023、Minerva Math、Olympiadbenchを含む50個のデータセットすべて)でDeepscaler-1.5b-previewを上回っていることを示しています。
さらに、FastCurl-1.5B-Previewのすべてのトレーニング段階は、8 GPUを備えた単一のノードのみを使用して完了します。
要約(オリジナル)
In this paper, we propose \textbf{\textsc{FastCuRL}}, a simple yet efficient \textbf{Cu}rriculum \textbf{R}einforcement \textbf{L}earning approach with context window extending strategy to accelerate the reinforcement learning training efficiency for R1-like reasoning models while enhancing their performance in tackling complex reasoning tasks with long chain-of-thought rationales, particularly with a 1.5B parameter language model. \textbf{\textsc{FastCuRL}} consists of two main procedures: length-aware training data segmentation and context window extension training. Specifically, the former first splits the original training data into three different levels by the input prompt length, and then the latter leverages segmented training datasets with a progressively increasing context window length to train the reasoning model. Experimental results demonstrate that \textbf{\textsc{FastCuRL}}-1.5B-Preview surpasses DeepScaleR-1.5B-Preview across all five datasets (including MATH 500, AIME 2024, AMC 2023, Minerva Math, and OlympiadBench) while only utilizing 50\% of training steps. Furthermore, all training stages for FastCuRL-1.5B-Preview are completed using just a single node with 8 GPUs.
arxiv情報
著者 | Mingyang Song,Mao Zheng,Zheng Li,Wenjie Yang,Xuan Luo,Yue Pan,Feng Zhang |
発行日 | 2025-03-21 16:35:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google