要約
タイトル:Hyena Hierarchy:より大きな畳み込み言語モデルに向けて
要約:
– Transformersの強みは、大規模な学習能力にあるため、近年の深層学習の進展に大きく寄与している。
– しかし、Transformersの核となるアテンションオペレーターは、シーケンス長に対して二次計算コストを示し、利用可能なコンテキスト量を制限している。
– このため、現在の亜二次的手法では、低ランクおよびスパース近似に基づく手法と密なアテンション層を組み合わせる必要があり、能力の差異があることが示された。
– 本論文では、Hyenaを提案し、曖昧にパラメータ化された長い畳み込みとデータ制御ゲーティングを交互に挟み込んで構成された亜二次ドロップイン置換の注目を集めている。
– Hyenaは、数千から数十万トークンのシーケンスに対する記憶および推論タスクにおいて、状態スペースや他の暗黙的および明示的な方法に依存するオペレーターに比べて、精度を50ポイント以上向上させ、注目ベースのモデルに相当する。
– さらに、標準データセット(WikiText103およびThe Pile)の言語モデル構築において、Dense-Attention-Free Architectureの最新技術を確立することに成功し、シーケンス長2Kでのトレーニング計算時間の20%の削減でTransformerの品質を維持している。
– Hyenaオペレータは、シーケンス長8Kでは高度に最適化された注目より2倍速く、シーケンス長64Kでは100倍速い。
要約(オリジナル)
Recent advances in deep learning have relied heavily on the use of large Transformers due to their ability to learn at scale. However, the core building block of Transformers, the attention operator, exhibits quadratic cost in sequence length, limiting the amount of context accessible. Existing subquadratic methods based on low-rank and sparse approximations need to be combined with dense attention layers to match Transformers, indicating a gap in capability. In this work, we propose Hyena, a subquadratic drop-in replacement for attention constructed by interleaving implicitly parametrized long convolutions and data-controlled gating. In recall and reasoning tasks on sequences of thousands to hundreds of thousands of tokens, Hyena improves accuracy by more than 50 points over operators relying on state-spaces and other implicit and explicit methods, matching attention-based models. We set a new state-of-the-art for dense-attention-free architectures on language modeling in standard datasets (WikiText103 and The Pile), reaching Transformer quality with a 20% reduction in training compute required at sequence length 2K. Hyena operators are twice as fast as highly optimized attention at sequence length 8K, and 100x faster at sequence length 64K.
arxiv情報
著者 | Michael Poli,Stefano Massaroli,Eric Nguyen,Daniel Y. Fu,Tri Dao,Stephen Baccus,Yoshua Bengio,Stefano Ermon,Christopher Ré |
発行日 | 2023-04-19 20:08:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI