Kinetics: Rethinking Test-Time Scaling Laws

要約

実用的な効率の観点からテスト時間のスケーリング法則を再考し、小さなモデルの有効性が大幅に過大評価されていることを明らかにしました。
計算最適性に基づいた以前の作業は、推論時間戦略によって導入された重要なメモリアクセスボトルネックを見落としています(たとえば、ベスト$ n $、ロングコット)。
0.6Bから32Bのパラメーターまでのモデルに及ぶ当社のホリスティック分析は、計算とメモリアクセスコストの両方を組み込むことにより、リソース割り当てをより適切にガイドする新しい動力学スケーリング法則を明らかにしています。
キネティックスのスケーリング法は、小さなものよりもしきい値よりも上のモデルで使用される場合、テスト時間計算がより効果的であることを示唆しています。
主な理由は、TTSでは、パラメーターカウントではなく注意が支配的なコスト係数として現れることです。
これにより動機付けられて、私たちは、トークンあたりのコストが低く、同じリソース予算内でより長い世代とより並列サンプルを可能にする、まばらな注意を中心とした新しいスケーリングパラダイムを提案します。
経験的には、まばらな注意モデルが一貫して密なカウンターパートを上回り、低コストのレジームで60ポイント以上の利益を達成し、高コストのレジームで5ポイント以上の利益を達成し、AIMEの問題解決精度を得るために、最先端のoesの評価を網羅していることを示しています。
これらの結果は、トレーニングとは異なり、精度が計算の関数としてまだ飽和しておらず、生成の増加を通じて改善し続けるテスト時間スケーリングの可能性を最大限に発揮するために、より多くのコンピューティングが投資されるにつれて、まばらな注意が不可欠であり、ますます重要であることを示唆しています。
このコードは、https://github.com/infini-ai-lab/kineticsで入手できます。

要約(オリジナル)

We rethink test-time scaling laws from a practical efficiency perspective, revealing that the effectiveness of smaller models is significantly overestimated. Prior work, grounded in compute-optimality, overlooks critical memory access bottlenecks introduced by inference-time strategies (e.g., Best-of-$N$, long CoTs). Our holistic analysis, spanning models from 0.6B to 32B parameters, reveals a new Kinetics Scaling Law that better guides resource allocation by incorporating both computation and memory access costs. Kinetics Scaling Law suggests that test-time compute is more effective when used on models above a threshold than smaller ones. A key reason is that in TTS, attention, rather than parameter count, emerges as the dominant cost factor. Motivated by this, we propose a new scaling paradigm centered on sparse attention, which lowers per-token cost and enables longer generations and more parallel samples within the same resource budget. Empirically, we show that sparse attention models consistently outperform dense counterparts, achieving over 60 points gains in low-cost regimes and over 5 points gains in high-cost regimes for problem-solving accuracy on AIME, encompassing evaluations on state-of-the-art MoEs. These results suggest that sparse attention is essential and increasingly important with more computing invested, for realizing the full potential of test-time scaling where, unlike training, accuracy has yet to saturate as a function of computation, and continues to improve through increased generation. The code is available at https://github.com/Infini-AI-Lab/Kinetics.

arxiv情報

著者 Ranajoy Sadhukhan,Zhuoming Chen,Haizhong Zheng,Yang Zhou,Emma Strubell,Beidi Chen
発行日 2025-06-06 16:11:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク