Demystifying Long Chain-of-Thought Reasoning in LLMs

要約

スケーリング推論の計算により、大きな言語モデル(LLMS)の推論が強化され、長い考え方(COTS)がバックトラッキングやエラー修正などの戦略を可能にします。
Rehnection Learning(RL)は、これらの機能を開発するための重要な方法として浮上していますが、長いCOTが出現する条件は不明のままであり、RLトレーニングには慎重な設計の選択が必要です。
この研究では、長いCOT推論のメカニズムを体系的に調査し、モデルが長いCOT軌道を生成できるようにする重要な要因を特定します。
広範な監視された微調整(SFT)およびRL実験により、4つの主要な調査結果を提示します。(1)SFTは厳密に必要ではありませんが、トレーニングを簡素化し、効率を向上させます。
(2)推論能力は、トレーニング計算の増加に伴い出現する傾向がありますが、それらの開発は保証されておらず、COTの長さの成長を安定させるために報酬の形成が重要になります。
(3)RLにとって検証可能な報酬信号のスケーリングが重要です。
フィルタリングメカニズムを備えた騒々しい、Web抽出されたソリューションを活用することは、特にSTEM推論などの分散分布(OOD)タスクの強い可能性を示していることがわかります。
(4)エラー補正などのコア能力は基本モデルに本質的に存在しますが、RLを介した複雑なタスクのためにこれらのスキルを効果的に奨励するには、重要な計算が必要であり、それらの出現を測定するには微妙なアプローチが必要です。
これらの洞察は、LLMSの長いCOT推論を強化するためのトレーニング戦略を最適化するための実用的なガイダンスを提供します。
私たちのコードは、https://github.com/eddycmu/demystify-long-cotで入手できます。

要約(オリジナル)

Scaling inference compute enhances reasoning in large language models (LLMs), with long chains-of-thought (CoTs) enabling strategies like backtracking and error correction. Reinforcement learning (RL) has emerged as a crucial method for developing these capabilities, yet the conditions under which long CoTs emerge remain unclear, and RL training requires careful design choices. In this study, we systematically investigate the mechanics of long CoT reasoning, identifying the key factors that enable models to generate long CoT trajectories. Through extensive supervised fine-tuning (SFT) and RL experiments, we present four main findings: (1) While SFT is not strictly necessary, it simplifies training and improves efficiency; (2) Reasoning capabilities tend to emerge with increased training compute, but their development is not guaranteed, making reward shaping crucial for stabilizing CoT length growth; (3) Scaling verifiable reward signals is critical for RL. We find that leveraging noisy, web-extracted solutions with filtering mechanisms shows strong potential, particularly for out-of-distribution (OOD) tasks such as STEM reasoning; and (4) Core abilities like error correction are inherently present in base models, but incentivizing these skills effectively for complex tasks via RL demands significant compute, and measuring their emergence requires a nuanced approach. These insights provide practical guidance for optimizing training strategies to enhance long CoT reasoning in LLMs. Our code is available at: https://github.com/eddycmu/demystify-long-cot.

arxiv情報

著者 Edward Yeo,Yuxuan Tong,Morry Niu,Graham Neubig,Xiang Yue
発行日 2025-02-05 17:13:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク