Griffin: Mixing Gated Linear Recurrences with Local Attention for Efficient Language Models

要約

リカレント ニューラル ネットワーク (RNN) は推論が速く、長いシーケンスでも効率的に拡張できますが、トレーニングと拡張が困難です。
我々は、ゲート線形リカレンスを備えた RNN である Hawk と、ゲート線形リカレンスとローカル アテンションを混合したハイブリッド モデルである Griffin を提案します。
Hawk はダウンストリーム タスクで報告されている Mamba のパフォーマンスを上回っていますが、Griffin は 6 倍以上少ないトークンでトレーニングされているにもかかわらず、Llama-2 のパフォーマンスに匹敵します。
また、Griffin がトレーニング中に見られたシーケンスよりも大幅に長いシーケンスを外挿できることも示します。
私たちのモデルは、トレーニング中の Transformer のハードウェア効率と一致し、推論中のレイテンシが低く、スループットが大幅に高くなります。
Griffin を 14B パラメータまでスケールし、効率的な分散トレーニングのためにモデルをシャーディングする方法について説明します。

要約(オリジナル)

Recurrent neural networks (RNNs) have fast inference and scale efficiently on long sequences, but they are difficult to train and hard to scale. We propose Hawk, an RNN with gated linear recurrences, and Griffin, a hybrid model that mixes gated linear recurrences with local attention. Hawk exceeds the reported performance of Mamba on downstream tasks, while Griffin matches the performance of Llama-2 despite being trained on over 6 times fewer tokens. We also show that Griffin can extrapolate on sequences significantly longer than those seen during training. Our models match the hardware efficiency of Transformers during training, and during inference they have lower latency and significantly higher throughput. We scale Griffin up to 14B parameters, and explain how to shard our models for efficient distributed training.

arxiv情報

著者 Soham De,Samuel L. Smith,Anushan Fernando,Aleksandar Botev,George Cristian-Muraru,Albert Gu,Ruba Haroun,Leonard Berrada,Yutian Chen,Srivatsan Srinivasan,Guillaume Desjardins,Arnaud Doucet,David Budden,Yee Whye Teh,Razvan Pascanu,Nando De Freitas,Caglar Gulcehre
発行日 2024-02-29 18:24:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク