EPiC: Towards Lossless Speedup for Reasoning Training through Edge-Preserving CoT Condensation

要約

大規模な言語モデル(LLM)は、考え方(COT)の監督で訓練されたときに、顕著な推論能力を示しています。
ただし、特にDeepSeek-R1などの大きな推論モデル(LRM)から蒸留された長いコットトレースは、蒸留プロセス中にトレーニングコストを大幅に増加させます。非合理的な基本モデルがLRMの推論行動を再現するように教えられています。
この作業では、コットトレースで中間推論ステップ(つまり、思考)を剪定することを目的としたリソース効率の高い推論トレーニングのためのCOT凝縮の問題を研究し、長さ還元されたCOTデータに関する監視されたモデルトレーニングを可能にしながら、回答の精度とコヒーレント推論を生成するモデルの能力の両方を維持します。
私たちの理論的根拠は、COTトレースが通常、問題の理解、探査、ソリューションの収束という3段階の構造に従うことです。
経験的分析を通じて、推論の痕跡、特に問題理解の初期段階(反射キューが豊富)とソリューション収束の最終段階を保持することは、ロスレスの推論監督を達成するのに十分であることがわかります。
この目的のために、中央部を破棄しながら各COTトレースの初期セグメントと最終セグメントのみを選択的に保持するエッジを摂取する凝縮法であるEpicを提案します。
このデザインは、論理的連続性を維持するために、推論軌道の「エッジ」を保存し、最初の問題フレーミングと最終的な回答合成の両方をキャプチャする類似性を引き出します。
複数のモデルファミリ(QWENおよびLLAMA)とベンチマークの実験は、EPICがトレーニング時間を34%以上削減しながら、完全なCOT監督に匹敵するMath500の損失のない推論の精度を達成することを示しています。
私たちの知る限り、これは効率的な推論モデルの蒸留のための思考レベルのCOT凝縮を探求する最初の研究です。

要約(オリジナル)

Large language models (LLMs) have shown remarkable reasoning capabilities when trained with chain-of-thought (CoT) supervision. However, the long and verbose CoT traces, especially those distilled from large reasoning models (LRMs) such as DeepSeek-R1, significantly increase training costs during the distillation process, where a non-reasoning base model is taught to replicate the reasoning behavior of an LRM. In this work, we study the problem of CoT condensation for resource-efficient reasoning training, aimed at pruning intermediate reasoning steps (i.e., thoughts) in CoT traces, enabling supervised model training on length-reduced CoT data while preserving both answer accuracy and the model’s ability to generate coherent reasoning. Our rationale is that CoT traces typically follow a three-stage structure: problem understanding, exploration, and solution convergence. Through empirical analysis, we find that retaining the structure of the reasoning trace, especially the early stage of problem understanding (rich in reflective cues) and the final stage of solution convergence, is sufficient to achieve lossless reasoning supervision. To this end, we propose an Edge-Preserving Condensation method, EPiC, which selectively retains only the initial and final segments of each CoT trace while discarding the middle portion. This design draws an analogy to preserving the ‘edge’ of a reasoning trajectory, capturing both the initial problem framing and the final answer synthesis, to maintain logical continuity. Experiments across multiple model families (Qwen and LLaMA) and benchmarks show that EPiC reduces training time by over 34% while achieving lossless reasoning accuracy on MATH500, comparable to full CoT supervision. To the best of our knowledge, this is the first study to explore thought-level CoT condensation for efficient reasoning model distillation.

arxiv情報

著者 Jinghan Jia,Hadi Reisizadeh,Chongyu Fan,Nathalie Baracaldo,Mingyi Hong,Sijia Liu
発行日 2025-06-04 17:49:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク