要約
大きな言語モデルでの推論時間検索を活用することは、複雑な数学的および推論的な問題を解決する訓練されたモデルの能力をさらに強化するのに効果的であることが証明されています。
ただし、このアプローチは、モデルが複数の候補ソリューションを生成および評価して実行可能な推論パスを特定する必要があるため、計算コストと推論時間を大幅に増加させます。
これに対処するために、多様な検索方法に由来する(学習)と失敗した推論パス(忘却)の両方を使用して、検索機能をモデルに直接統合する効果的なアプローチを提案します。
これらのデータでモデルを微調整することは簡単に思えるかもしれませんが、重要な問題を特定します。モデルの検索機能は、微調整が素朴に実行されると急速に劣化する傾向があります。
この劣化は、学習率が小さいことにより、実質的に緩和できることを示しています。
挑戦的なゲームオブ24およびカウントダウン数学の推論ベンチマークに関する広範な実験は、このアプローチが標準の微調整と推論時間検索ベースラインの両方を上回るだけでなく、推論時間を180 $ \ Times $を大幅に削減することを示しています。
要約(オリジナル)
Leveraging inference-time search in large language models has proven effective in further enhancing a trained model’s capability to solve complex mathematical and reasoning problems. However, this approach significantly increases computational costs and inference time, as the model must generate and evaluate multiple candidate solutions to identify a viable reasoning path. To address this, we propose an effective approach that integrates search capabilities directly into the model by fine-tuning it using both successful (learning) and failed reasoning paths (forgetting) derived from diverse search methods. While fine-tuning the model with these data might seem straightforward, we identify a critical issue: the model’s search capability tends to degrade rapidly if fine-tuning is performed naively. We show that this degradation can be substantially mitigated by employing a smaller learning rate. Extensive experiments on the challenging Game-of-24 and Countdown mathematical reasoning benchmarks show that our approach not only outperforms both standard fine-tuning and inference-time search baselines but also significantly reduces inference time by 180$\times$.
arxiv情報
著者 | Tianwei Ni,Allen Nie,Sapana Chaudhary,Yao Liu,Huzefa Rangwala,Rasool Fakoor |
発行日 | 2025-04-15 16:30:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google