Thinking Slow, Fast: Scaling Inference Compute with Distilled Reasoners

要約

最近の進歩により、テスト時に計算リソースをスケーリングすることにより、大規模な言語モデル(LLMS)のパフォーマンスが大幅に向上できることが実証されています。
一般的な戦略には、複数の考え方(COT)の軌跡を生成し、さまざまな選択メカニズムを介して出力を集約することが含まれます。
これは基本的な疑問を提起します。複雑さが低いモデルは、優れた生成スループットを活用して、固定計算予算のために同様にサイズの変圧器を上回ることができますか?
この質問に対処し、強力なサブクアドラティックな推論者の欠如を克服するために、純粋なマンバモデルとハイブリッドマンバモデルを前処理された変圧器から蒸留します。
わずか80億トークンでトレーニングされた当社の蒸留モデルは、大きなバッチと長いシーケンスの推論ではるかに高速であると同時に、数学的推論データセットの強力なパフォーマンスとスケーリングを示しています。
蒸留によるゼロショットのパフォーマンスヒットにもかかわらず、純粋なMAMBAモデルとハイブリッドMAMBAモデルの両方が、固定時間予算の下で変圧器の教師モデルを通過してカバレッジと精度のパフォーマンスを拡大し、スケーリング推論のための新しい方向性を開きます。

要約(オリジナル)

Recent advancements have demonstrated that the performance of large language models (LLMs) can be significantly enhanced by scaling computational resources at test time. A common strategy involves generating multiple Chain-of-Thought (CoT) trajectories and aggregating their outputs through various selection mechanisms. This raises a fundamental question: can models with lower complexity leverage their superior generation throughput to outperform similarly sized Transformers for a fixed computational budget? To address this question and overcome the lack of strong subquadratic reasoners, we distill pure and hybrid Mamba models from pretrained Transformers. Trained on only 8 billion tokens, our distilled models show strong performance and scaling on mathematical reasoning datasets while being much faster at inference for large batches and long sequences. Despite the zero-shot performance hit due to distillation, both pure and hybrid Mamba models can scale their coverage and accuracy performance past their Transformer teacher models under fixed time budgets, opening a new direction for scaling inference compute.

arxiv情報

著者 Daniele Paliotta,Junxiong Wang,Matteo Pagliardini,Kevin Y. Li,Aviv Bick,J. Zico Kolter,Albert Gu,François Fleuret,Tri Dao
発行日 2025-02-27 18:08:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク