xLSTM 7B: A Recurrent LLM for Fast and Efficient Inference

要約

推論モデル(LLM)の推論、数学、コーディングの問題の解決における最近のブレークスルーは、推論時間に実質的な計算予算を投資することにより有効になっています。
したがって、推論速度はLLMアーキテクチャの最も重要な特性の1つであり、推論で効率的かつ高速なLLMの必要性が高まっています。
最近、XLSTMアーキテクチャに基づいて構築されたLLMは、変圧器の強力な代替品として浮上しており、シーケンスの長さと一定のメモリ使用量を備えた線形計算スケーリングを提供します。
ただし、このようなXLSTMベースのLLMは、まだ大きなモデルに拡大されておらず、推論速度と効率に関して評価され、比較されています。
この作業では、XLSTMの建築上の利点を高速かつ効率的な推論のためのターゲットの最適化と組み合わせた70億パラメーターLLMであるXLSTM 7Bを紹介します。
我々の実験は、XLSTM 7Bが他の同様のサイズのLLMに匹敵する下流タスクのパフォーマンスを達成し、LlamaおよびMambaベースのLLMと比較して、推論速度と効率が大幅に増加することを示しています。
これらの結果は、XLSTM 7Bが最速かつ最も効率的な7B LLMとして確立され、大量のテスト時間計算を必要とするタスクのソリューションを提供します。
私たちの研究は、LLM推論の大量使用に基づいて構築する方法の基礎アーキテクチャとしてのXLSTMの可能性を強調しています。
モデルの重み、モデルコード、トレーニングコードはオープンソースです。

要約(オリジナル)

Recent breakthroughs in solving reasoning, math and coding problems with Large Language Models (LLMs) have been enabled by investing substantial computation budgets at inference time. Therefore, inference speed is one of the most critical properties of LLM architectures, and there is a growing need for LLMs that are efficient and fast at inference. Recently, LLMs built on the xLSTM architecture have emerged as a powerful alternative to Transformers, offering linear compute scaling with sequence length and constant memory usage, both highly desirable properties for efficient inference. However, such xLSTM-based LLMs have yet to be scaled to larger models and assessed and compared with respect to inference speed and efficiency. In this work, we introduce xLSTM 7B, a 7-billion-parameter LLM that combines xLSTM’s architectural benefits with targeted optimizations for fast and efficient inference. Our experiments demonstrate that xLSTM 7B achieves performance on downstream tasks comparable to other similar-sized LLMs, while providing significantly faster inference speeds and greater efficiency compared to Llama- and Mamba-based LLMs. These results establish xLSTM 7B as the fastest and most efficient 7B LLM, offering a solution for tasks that require large amounts of test-time computation. Our work highlights xLSTM’s potential as a foundational architecture for methods building on heavy use of LLM inference. Our model weights, model code and training code are open-source.

arxiv情報

著者 Maximilian Beck,Korbinian Pöppel,Phillip Lippe,Richard Kurle,Patrick M. Blies,Günter Klambauer,Sebastian Böck,Sepp Hochreiter
発行日 2025-03-17 17:54:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク