Reinforcement Learning for Reasoning in Small LLMs: What Works and What Doesn’t

要約

大規模な言語モデル(LLM)の推論機能を強化することは、通常、大規模な計算リソースと広範なデータセットに依存しており、リソースに制約のある設定のアクセシビリティを制限します。
私たちの研究では、強化学習(RL)の可能性を調査し、15億パラメーターモデルであるDeepSeek-R1-Distill-Qwen-1.5Bに焦点を当て、24時間以内に4つのNVIDIA A40 GPU(それぞれ48 GB VRAM)でのトレーニングを行っています。
グループ相対ポリシー最適化(GRPO)アルゴリズムを適応させ、コンパクトで高品質の数学的推論データセットをキュレーションして、モデルの動作とパフォーマンスを探求するために3つの実験を実施しました。
私たちの結果は、たとえば、AMC23の精度が63%から80%に上昇し、AIME24が46.7%に達し、O1 -PREVIEWを超える急速な推論の利益を示しています。ベースラインモデルの数千ドルと比較して、7,000ドルのサンプルと42ドルのトレーニングコストを使用しています。
ただし、最適化の不安定性や長さの制約などの課題は、長期にわたるトレーニングで現れました。
これらの調査結果は、小型LLMSのRLベースの微調整の有効性を強調し、大規模なアプローチに代わる費用対効果の高い代替品を提供します。
コードとデータセットをオープンソースリソースとしてリリースし、トレードオフに関する洞察を提供し、リソース制限環境でスケーラブルで推論可能なLLMの基盤を築きます。
すべてはhttps://github.com/knoveleng/open-rsで入手できます。

要約(オリジナル)

Enhancing the reasoning capabilities of large language models (LLMs) typically relies on massive computational resources and extensive datasets, limiting accessibility for resource-constrained settings. Our study investigates the potential of reinforcement learning (RL) to improve reasoning in small LLMs, focusing on a 1.5-billion-parameter model, DeepSeek-R1-Distill-Qwen-1.5B, under strict constraints: training on 4 NVIDIA A40 GPUs (48 GB VRAM each) within 24 hours. Adapting the Group Relative Policy Optimization (GRPO) algorithm and curating a compact, high-quality mathematical reasoning dataset, we conducted three experiments to explore model behavior and performance. Our results demonstrate rapid reasoning gains – e.g., AMC23 accuracy rising from 63% to 80% and AIME24 reaching 46.7%, surpassing o1-preview – using only 7,000 samples and a $42 training cost, compared to thousands of dollars for baseline models. However, challenges such as optimization instability and length constraints emerged with prolonged training. These findings highlight the efficacy of RL-based fine-tuning for small LLMs, offering a cost-effective alternative to large-scale approaches. We release our code and datasets as open-source resources, providing insights into trade-offs and laying a foundation for scalable, reasoning-capable LLMs in resource-limited environments. All are available at https://github.com/knoveleng/open-rs.

arxiv情報

著者 Quy-Anh Dang,Chris Ngo
発行日 2025-03-20 15:13:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク