Hyena Hierarchy: Towards Larger Convolutional Language Models

要約

最近の深層学習の進歩は、大規模な学習が可能なことから、大規模なTransformerの使用に大きく依存しています。しかし、Transformerの中核的な構成要素である注意演算子は、シーケンス長に対して2次関数的なコストを示し、アクセスできるコンテキストの量が制限される。低ランクでスパースな近似に基づく既存の二次関数的手法は、Transformersと一致させるために高密度の注意層と組み合わせる必要があり、能力の差があることを示している。本研究では、暗黙的にパラメトリック化された長い畳み込みとデータ制御されたゲーティングをインターリーブすることによって構築された、注意のサブクアドラチックなドロップイン代替法であるHyenaを提案する。数千から数十万のトークンのシーケンスに関する想起と推論タスクにおいて、Hyenaは、状態空間や他の暗黙的・明示的手法に依存する演算子よりも50ポイント以上精度を向上させ、注意ベースのモデルにマッチする。我々は、標準的なデータセット(WikiText103とThe Pile)における言語モデリングにおいて、密な注意を必要としないアーキテクチャの新しい最先端を打ち立て、シーケンス長2Kで必要なトレーニング計算を20%削減しながらTransformer品質に到達させた。ハイエナ演算子は、配列長8Kで高度に最適化されたアテンションより2倍速く、配列長64Kで100倍速くなった。

要約(オリジナル)

Recent advances in deep learning have relied heavily on the use of large Transformers due to their ability to learn at scale. However, the core building block of Transformers, the attention operator, exhibits quadratic cost in sequence length, limiting the amount of context accessible. Existing subquadratic methods based on low-rank and sparse approximations need to be combined with dense attention layers to match Transformers, indicating a gap in capability. In this work, we propose Hyena, a subquadratic drop-in replacement for attention constructed by interleaving implicitly parametrized long convolutions and data-controlled gating. In recall and reasoning tasks on sequences of thousands to hundreds of thousands of tokens, Hyena improves accuracy by more than 50 points over operators relying on state-spaces and other implicit and explicit methods, matching attention-based models. We set a new state-of-the-art for dense-attention-free architectures on language modeling in standard datasets (WikiText103 and The Pile), reaching Transformer quality with a 20% reduction in training compute required at sequence length 2K. Hyena operators are twice as fast as highly optimized attention at sequence length 8K, and 100x faster at sequence length 64K.

arxiv情報

著者 Michael Poli,Stefano Massaroli,Eric Nguyen,Daniel Y. Fu,Tri Dao,Stephen Baccus,Yoshua Bengio,Stefano Ermon,Christopher Ré
発行日 2023-03-06 01:26:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.LG パーマリンク