Dynamic Early Exit in Reasoning Models

要約

大規模な推論言語モデル(LRLMS)の最近の進歩は、テスト時間スケーリングに依存しており、複雑なタスクを解決するために長い考え方(COT)生成を拡張します。
ただし、長いCOTでの考え方は、問題解決の効率を遅くするだけでなく、非常に詳細または冗長な推論ステップにより、精度の損失をリスクリスクします。
LLMSが発電中の早期出口でCOTシーケンスを自己切断できるようにするシンプルでありながら効果的な方法を提案します。
固定ヒューリスティックに依存する代わりに、提案された方法は、潜在的な推論遷移ポイント(例えば、「待機」トークン)でモデルの動作を監視し、モデルが試行回答に高い信頼性を示すときに次の推論チェーンの生成を動的に終了します。
私たちの方法は追加のトレーニングを必要とせず、既存のO1様推論LLMにシームレスに統合できます。
複数の推論ベンチマークMath-500、AMC 2023、GPQAダイヤモンド、およびAIME 2024での実験は、提案された方法がLLMSを推論するDeepSeekシリーズの推論で一貫して有効であり、COTシーケンスの長さを平均31%から43%減らしながら、精度を1.7%から5.7%減らすことを示しています。

要約(オリジナル)

Recent advances in large reasoning language models (LRLMs) rely on test-time scaling, which extends long chain-of-thought (CoT) generation to solve complex tasks. However, overthinking in long CoT not only slows down the efficiency of problem solving, but also risks accuracy loss due to the extremely detailed or redundant reasoning steps. We propose a simple yet effective method that allows LLMs to self-truncate CoT sequences by early exit during generation. Instead of relying on fixed heuristics, the proposed method monitors model behavior at potential reasoning transition points (e.g.,’Wait’ tokens) and dynamically terminates the next reasoning chain’s generation when the model exhibits high confidence in a trial answer. Our method requires no additional training and can be seamlessly integrated into existing o1-like reasoning LLMs. Experiments on multiple reasoning benchmarks MATH-500, AMC 2023, GPQA Diamond and AIME 2024 show that the proposed method is consistently effective on deepseek-series reasoning LLMs, reducing the length of CoT sequences by an average of 31% to 43% while improving accuracy by 1.7% to 5.7%.

arxiv情報

著者 Chenxu Yang,Qingyi Si,Yongjie Duan,Zheliang Zhu,Chenyu Zhu,Zheng Lin,Li Cao,Weiping Wang
発行日 2025-04-22 13:36:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク