要約
自然言語処理の現在の時代(NLP)は、変圧器モデルによって支配されています。
ただし、XLSTMやMambaなどの再発メカニズムに依存する新しいアーキテクチャは、注意ベースのモデルの代替として提案されています。
計算は注意メカニズムのメカニズムとは異なる方法で行われますが、これらの再発モデルは良い結果をもたらし、時には最先端の注意ベースのモデルよりも優れています。
この作業では、distil-xlstm、xlstmベースの小言語モデル(SLM)を提案します。知識を蒸留することで訓練された大規模な言語モデル(LLM)を蒸留し、有望な結果を示しながら、計算とスケールを効率的に示しています。
Distil-XLSTMは、再発シーケンス混合コンポーネントを使用して、変圧器ベースのモデル注意パラメーター化に近似することに焦点を当てており、最小限のトレーニングで良い結果を示しています。
要約(オリジナル)
The current era of Natural Language Processing (NLP) is dominated by Transformer models. However, novel architectures relying on recurrent mechanisms, such as xLSTM and Mamba, have been proposed as alternatives to attention-based models. Although computation is done differently than with the attention mechanism mechanism, these recurrent models yield good results and sometimes even outperform state-of-the-art attention-based models. In this work, we propose Distil-xLSTM, an xLSTM-based Small Language Model (SLM) trained by distilling knowledge from a Large Language Model (LLM) that shows promising results while being compute and scale efficient. Our Distil-xLSTM focuses on approximating a transformer-based model attention parametrization using its recurrent sequence mixing components and shows good results with minimal training.
arxiv情報
著者 | Abdoul Majid O. Thiombiano,Brahim Hnich,Ali Ben Mrad,Mohamed Wiem Mkaouer |
発行日 | 2025-03-24 11:18:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google