Hyena Hierarchy: Towards Larger Convolutional Language Models

要約

深層学習の最近の進歩は、大規模な学習能力があるため、大規模な Transformer の使用に大きく依存しています。
ただし、トランスフォーマーのコア ビルディング ブロックであるアテンション オペレーターは、シーケンスの長さで二次コストを示し、アクセス可能なコンテキストの量を制限します。
低ランクおよびスパース近似に基づく既存の準二次法は、トランスフォーマーと一致するように高密度のアテンション レイヤーと組み合わせる必要があり、これは機能のギャップを示しています。
この作業では、Hyena を提案します。これは、暗黙的にパラメーター化された長い畳み込みとデータ制御されたゲーティングをインターリーブすることによって構築された注意の二次二次ドロップイン代替品です。
ハイエナは、数千から数十万のトークンのシーケンスでのリコールと推論のタスクで、状態空間やその他の暗黙的および明示的な方法に依存し、注意ベースのモデルと一致するオペレーターよりも 50 ポイント以上精度を向上させます。
標準データセット (WikiText103 および The Pile) での言語モデリングに高密度で注意のないアーキテクチャの新しい最先端技術を設定し、シーケンス長 2K で必要なトレーニング コンピューティングを 20% 削減して Transformer の品質に到達しました。
ハイエナ オペレーターは、高度に最適化された注意のシーケンス長 8K で 2 倍、シーケンス長 64K で 100 倍高速です。

要約(オリジナル)

Recent advances in deep learning have relied heavily on the use of large Transformers due to their ability to learn at scale. However, the core building block of Transformers, the attention operator, exhibits quadratic cost in sequence length, limiting the amount of context accessible. Existing subquadratic methods based on low-rank and sparse approximations need to be combined with dense attention layers to match Transformers, indicating a gap in capability. In this work, we propose Hyena, a subquadratic drop-in replacement for attention constructed by interleaving implicitly parametrized long convolutions and data-controlled gating. In recall and reasoning tasks on sequences of thousands to hundreds of thousands of tokens, Hyena improves accuracy by more than 50 points over operators relying on state-spaces and other implicit and explicit methods, matching attention-based models. We set a new state-of-the-art for dense-attention-free architectures on language modeling in standard datasets (WikiText103 and The Pile), reaching Transformer quality with a 20% reduction in training compute required at sequence length 2K. Hyena operators are twice as fast as highly optimized attention at sequence length 8K, and 100x faster at sequence length 64K.

arxiv情報

著者 Michael Poli,Stefano Massaroli,Eric Nguyen,Daniel Y. Fu,Tri Dao,Stephen Baccus,Yoshua Bengio,Stefano Ermon,Christopher Ré
発行日 2023-02-21 18:29:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク