要約
大規模な推論モデルは、長く、精巧な推論軌跡を介して顕著な推論能力を示します。
蒸留としても知られるこのような推論の痕跡についての監視された微調整は、学生モデルの推論能力を高めるための費用対効果の高い方法です。
しかし、経験的な観察により、これらの推論の軌跡はしばしば最適ではないことが明らかになり、異なる思考線の間に過度に切り替えられ、考えが少ない、考えすぎ、さらには退化します。
大規模な推論モデルから高品質の推論パスを蒸留するために、MCTSにインスパイアされた検索アルゴリズムであるRetro-Searchを紹介します。
Retro-Searchは、遡及的に推論パスを修正して、より短い、しかしより短いトレースを発見し、より短い推論機能を強化し、したがって推論を速くする学生モデルにつながる可能性があります。
私たちのアプローチは、モデルが独自のレトロ検索された思考の痕跡で微調整されている自己改善と、レトロサーチを介してより強いモデルの思考痕跡を改訂する2つのユースケースと弱い改善の2つのユースケースを可能にすることができます。
自己改善のために、R1-Distill-7Bは、独自のレトロサーチEDトレースで微調整されており、平均推論長を31.2%削減しながら、7つの数学ベンチマークで7.7%パフォーマンスを改善します。
弱い改善のために、R1-671Bのトレースを、R1-Distill-32BをRetro-Search-ERとして使用して、モデル20X Smallを使用してOpenThoughtsデータセットから遡及的に修正します。
この洗練されたデータで微調整されたQWEN2.5-32Bは、R1-Distill-32Bに匹敵するパフォーマンスを達成し、推論長が11.3%減少し、元のOpenthoughtsデータの微調整と比較して2.4%のパフォーマンス改善が得られます。
私たちの作品は最近、フロンティアモデルであってもアルゴリズムの進歩の機会がまだあることを実証することにより、大規模な推論モデルの時代における検索アルゴリズムの関連性に疑問を投げかける緊急の視点を最近カウンターします。
要約(オリジナル)
Large reasoning models exhibit remarkable reasoning capabilities via long, elaborate reasoning trajectories. Supervised fine-tuning on such reasoning traces, also known as distillation, can be a cost-effective way to boost reasoning capabilities of student models. However, empirical observations reveal that these reasoning trajectories are often suboptimal, switching excessively between different lines of thought, resulting in under-thinking, over-thinking, and even degenerate responses. We introduce Retro-Search, an MCTS-inspired search algorithm, for distilling higher quality reasoning paths from large reasoning models. Retro-Search retrospectively revises reasoning paths to discover better, yet shorter traces, which can then lead to student models with enhanced reasoning capabilities with shorter, thus faster inference. Our approach can enable two use cases: self-improvement, where models are fine-tuned on their own Retro-Search-ed thought traces, and weak-to-strong improvement, where a weaker model revises stronger model’s thought traces via Retro-Search. For self-improving, R1-distill-7B, fine-tuned on its own Retro-Search-ed traces, reduces the average reasoning length by 31.2% while improving performance by 7.7% across seven math benchmarks. For weak-to-strong improvement, we retrospectively revise R1-671B’s traces from the OpenThoughts dataset using R1-distill-32B as the Retro-Search-er, a model 20x smaller. Qwen2.5-32B, fine-tuned on this refined data, achieves performance comparable to R1-distill-32B, yielding an 11.3% reduction in reasoning length and a 2.4% performance improvement compared to fine-tuning on the original OpenThoughts data. Our work counters recently emergent viewpoints that question the relevance of search algorithms in the era of large reasoning models, by demonstrating that there are still opportunities for algorithmic advancements, even for frontier models.
arxiv情報
著者 | Ximing Lu,Seungju Han,David Acuna,Hyunwoo Kim,Jaehun Jung,Shrimai Prabhumoye,Niklas Muennighoff,Mostofa Patwary,Mohammad Shoeybi,Bryan Catanzaro,Yejin Choi |
発行日 | 2025-04-15 14:07:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google