ReasonFlux: Hierarchical LLM Reasoning via Scaling Thought Templates

要約

スケーリングの思考テンプレートを介して階層的なLLM推論が推論検索スペースを効果的に最適化し、Openai O1-PreviewやDeepSeek V3などの強力なLLMの数学的推論機能を上回ることができることを示します。
ReasonFlux-32Bモデルは8 GPUのみでトレーニングし、3つの革新を導入します。(i)類似または関連する推論問題に一般化できる約500の高レベルの思考テンプレートを含む構造化された一般的な思考テンプレートライブラリ。
(ii)長いコットの代わりに一連の思考テンプレートで階層補強学習を実行し、ベースLLMを最適化して、複雑な問題を徐々に処理するための最適なテンプレート軌道を計画します。
(iii)推論時に適応的にスケーリングされる思考テンプレートによって階層的なLLM推論を可能にする新しい推論スケーリングシステム。
シーケンシャル思考テンプレートを含むテンプレートの軌跡を使用すると、ReasonFlux-32bは数学の推論能力を最先端のレベルに大幅に進めます。
特に、数学ベンチマークでは、91.2%の精度を達成し、O1-Previewを6.7%上回ります。
USA Math Olympiad(AIME)ベンチマークでは、ReasonFlux-32Bは問題の平均56.7%を解決し、O1-PreviewとDeepSeek-V3をそれぞれ27%と45%上回ります。
コード:https://github.com/gen-verse/reasonflux

要約(オリジナル)

We present that hierarchical LLM reasoning via scaling thought templates can effectively optimize the reasoning search space and outperform the mathematical reasoning capabilities of powerful LLMs like OpenAI o1-preview and DeepSeek V3. We train our ReasonFlux-32B model with only 8 GPUs and introduces three innovations: (i) a structured and generic thought template library, containing around 500 high-level thought templates capable of generalizing to similar or relevant reasoning problems; (ii) performing hierarchical reinforcement learning on a sequence of thought templates instead of long CoTs, optimizing a base LLM to plan out an optimal template trajectory for gradually handling complex problems; (iii) a brand new inference scaling system that enables hierarchical LLM reasoning by adaptively scaling thought templates at inference time. With a template trajectory containing sequential thought templates, our ReasonFlux-32B significantly advances math reasoning capabilities to state-of-the-art levels. Notably, on the MATH benchmark, it achieves an accuracy of 91.2% and surpasses o1-preview by 6.7%. On the USA Math Olympiad (AIME) benchmark, ReasonFlux-32B solves an average of 56.7% of problems, surpassing o1-preview and DeepSeek-V3 by 27% and 45%, respectively. Code: https://github.com/Gen-Verse/ReasonFlux

arxiv情報

著者 Ling Yang,Zhaochen Yu,Bin Cui,Mengdi Wang
発行日 2025-02-10 18:51:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク