要約
System 1からSystem 2の大規模な言語モデル(LLMS)の推論への移行は、意図的で反復的な思考を通じて複雑なタスクを処理する際の大幅な進歩を示しています。
ただし、モデルが考え過ぎる傾向があり、出力の質を比例して改善することなく冗長な推論ステップを生成する傾向があるため、この進捗は効率性のコストでしばしば発生します。
長期的な(L2S)推論は、この課題の有望な解決策として浮上しており、推論の深さと実際の効率のバランスをとることを目指しています。
監視された微調整(SFT)、補強学習(RL)、迅速なエンジニアリングなどの既存のアプローチは、潜在能力を示していますが、計算上の高価であるか不安定です。
一方、モデルのマージは、システム1モデルの迅速な考えの機能をシステム2モデルの系統的推論と統合することにより、費用対効果の高い堅牢な代替品を提供します。
この作業では、L2Sの推論のモデル合併、タスクベクトルベース、SVDベース、アクティベーションに基づいたマージを含む多様な方法論を調査する包括的な経験的研究を提示します。
私たちの実験では、モデルのマージがベースラインのパフォーマンスを維持または改善しながら、平均応答長を最大55%減らすことができることが明らかになりました。
また、モデルスケールと1.5B/7B/14B/32Bモデルでの広範な評価とのマージの有効性との強い相関関係を特定します。
さらに、自己批判的で自己修正するマージモデルの能力、およびタスクの複雑さに基づく適応応答長を調査します。
私たちの調査結果は、L2S推論の非常に効率的で効果的なパラダイムとしてマージされるモデルを強調し、システム2の推論の堅牢性を維持しながら、考え直しの問題に対する実用的な解決策を提供します。
この作品は、github https://github.com/hahahawu/long-to-short-via-model-mergingにあります。
要約(オリジナル)
The transition from System 1 to System 2 reasoning in large language models (LLMs) has marked significant advancements in handling complex tasks through deliberate, iterative thinking. However, this progress often comes at the cost of efficiency, as models tend to overthink, generating redundant reasoning steps without proportional improvements in output quality. Long-to-Short (L2S) reasoning has emerged as a promising solution to this challenge, aiming to balance reasoning depth with practical efficiency. While existing approaches, such as supervised fine-tuning (SFT), reinforcement learning (RL), and prompt engineering, have shown potential, they are either computationally expensive or unstable. Model merging, on the other hand, offers a cost-effective and robust alternative by integrating the quick-thinking capabilities of System 1 models with the methodical reasoning of System 2 models. In this work, we present a comprehensive empirical study on model merging for L2S reasoning, exploring diverse methodologies, including task-vector-based, SVD-based, and activation-informed merging. Our experiments reveal that model merging can reduce average response length by up to 55% while preserving or even improving baseline performance. We also identify a strong correlation between model scale and merging efficacy with extensive evaluations on 1.5B/7B/14B/32B models. Furthermore, we investigate the merged model’s ability to self-critique and self-correct, as well as its adaptive response length based on task complexity. Our findings highlight model merging as a highly efficient and effective paradigm for L2S reasoning, offering a practical solution to the overthinking problem while maintaining the robustness of System 2 reasoning. This work can be found on Github https://github.com/hahahawu/Long-to-Short-via-Model-Merging.
arxiv情報
著者 | Han Wu,Yuxuan Yao,Shuqi Liu,Zehua Liu,Xiaojin Fu,Xiongwei Han,Xing Li,Hui-Ling Zhen,Tao Zhong,Mingxuan Yuan |
発行日 | 2025-03-26 15:34:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google