要約
大規模な言語モデル(LLM)は、長鎖の推論を通じて複雑なタスクを処理する上で印象的な機能を示しています。
ただし、関連する広範な推論ステップは、計算コストを大幅に増加させる可能性があり、実際の展開の課題をもたらします。
最近の取り組みは、長さを認識した迅速なエンジニアリング、さまざまな長さのCOTデータの監視された微調整、長さのペナルティを備えた補強学習など、さまざまなアプローチを通じて、考え方(COT)の推論プロセスを短縮することにより、推論効率を最適化することに焦点を当てています。
これらの方法は効果的に推論長を短縮しますが、最初の推論段階が必要です。
より最近のアプローチでは、長鎖と短鎖の推論能力を単一のモデルに統合しようとしましたが、それでも短いベッドとロングコットを切り替えるために手動制御に依存しています。
この作業では、問題の複雑さに基づいて短い推論チェーンと長い推論チェーンを自律的に切り替える新しいアプローチを提案します。
私たちの方法は、長鎖と短鎖の推論能力の両方を装備するために、ベースモデルの監視された微調整から始まります。
次に、強化学習を採用して、短いCOTと長いCOTの生成のバランスをさらにバランスさせながら、2つの重要な戦略を維持します。まず、強化学習を長期的な適応型グループごとの報酬戦略と統合して、迅速な複雑さを評価し、対応する報酬を提供します。
第二に、モデルの最初のトークンの選択を最適化するためにロジットベースの推論モードの切り替えロスを実装し、それにより推論タイプの選択を導きます。
数学データセットの評価は、モデルがパフォーマンスを実質的に犠牲にすることなく、長鎖と短鎖の推論モードを動的に切り替えることができることを示しています。
この進歩は、実際のアプリケーションの大規模な言語モデルでの推論の実用性を高めます。
要約(オリジナル)
Large language models (LLMs) have shown impressive capabilities in handling complex tasks through long-chain reasoning. However, the extensive reasoning steps involved can significantly increase computational costs, posing challenges for real-world deployment. Recent efforts have focused on optimizing reasoning efficiency by shortening the Chain-of-Thought (CoT) reasoning processes through various approaches, such as length-aware prompt engineering, supervised fine-tuning on CoT data with variable lengths, and reinforcement learning with length penalties. Although these methods effectively reduce reasoning length, they still necessitate an initial reasoning phase. More recent approaches have attempted to integrate long-chain and short-chain reasoning abilities into a single model, yet they still rely on manual control to toggle between short and long CoT. In this work, we propose a novel approach that autonomously switches between short and long reasoning chains based on problem complexity. Our method begins with supervised fine-tuning of the base model to equip both long-chain and short-chain reasoning abilities. We then employ reinforcement learning to further balance short and long CoT generation while maintaining accuracy through two key strategies: first, integrating reinforcement learning with a long-short adaptive group-wise reward strategy to assess prompt complexity and provide corresponding rewards; second, implementing a logit-based reasoning mode switching loss to optimize the model’s initial token choice, thereby guiding the selection of the reasoning type. Evaluations on mathematical datasets demonstrate that our model can dynamically switch between long-chain and short-chain reasoning modes without substantially sacrificing performance. This advancement enhances the practicality of reasoning in large language models for real-world applications.
arxiv情報
著者 | Yunhao Wang,Yuhao Zhang,Tinghao Yu,Can Xu,Feng Zhang,Fengzong Lian |
発行日 | 2025-05-27 12:54:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google