要約
このペーパーでは、テスト時に大きな推論モデル(LRMS)の推論の進捗状況を調節するための普遍的なフレームワークであるAlphaone($ \ alpha $ 1)を紹介します。
$ \ alpha $ 1は、最初に$ \ alpha $モーメントを導入します。これは、ユニバーサルパラメーター$ \ alpha $を使用したスケーリングされた思考フェーズを表します。
このスケーリングされたpre-$ \ alpha $モーメントフェーズ内で、Bernoulliの確率プロセスとして推移的なトークンの挿入をモデル化することにより、ゆっくりと思考遷移を動的にスケジュールします。
$ \ alpha $モーメントの後、$ \ alpha $ 1は、思考の終わりのトークンでゆっくりした思考を決定的に終了し、それによって速い推論と効率的な回答生成を促進します。
このアプローチは、柔軟で密度の高いゆっくりとした推論変調を可能にすることにより、既存の単調スケーリング方法を統一および一般化します。
数学、コーディング、および科学的領域全体のさまざまな挑戦的なベンチマークに関する広範な実証研究は、$ \ alpha $ 1の優れた推論能力と効率性を示しています。
プロジェクトページ:https://alphaone-project.github.io/
要約(オリジナル)
This paper presents AlphaOne ($\alpha$1), a universal framework for modulating reasoning progress in large reasoning models (LRMs) at test time. $\alpha$1 first introduces $\alpha$ moment, which represents the scaled thinking phase with a universal parameter $\alpha$. Within this scaled pre-$\alpha$ moment phase, it dynamically schedules slow thinking transitions by modeling the insertion of reasoning transition tokens as a Bernoulli stochastic process. After the $\alpha$ moment, $\alpha$1 deterministically terminates slow thinking with the end-of-thinking token, thereby fostering fast reasoning and efficient answer generation. This approach unifies and generalizes existing monotonic scaling methods by enabling flexible and dense slow-to-fast reasoning modulation. Extensive empirical studies on various challenging benchmarks across mathematical, coding, and scientific domains demonstrate $\alpha$1’s superior reasoning capability and efficiency. Project page: https://alphaone-project.github.io/
arxiv情報
著者 | Junyu Zhang,Runpei Dong,Han Wang,Xuying Ning,Haoran Geng,Peihao Li,Xialin He,Yutong Bai,Jitendra Malik,Saurabh Gupta,Huan Zhang |
発行日 | 2025-05-30 17:58:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google