Data-Informed Global Sparseness in Attention Mechanisms for Deep Neural Networks

要約

注意メカニズムは、自然言語処理 (NLP) の神経革命において重要な役割を果たします。
アテンションベースのモデルの成長に伴い、疎性を特定して利用するためのいくつかの枝刈り手法が開発され、これらのモデルをより効率的にしています。
ほとんどの取り組みは、トレーニング データに基づいて注意パターンをハードコーディングしたり、注意の重みを刈り込んだりすることに焦点を当てています。
我々は、固定データセット内の注意パターンを観察し、グローバルなスパースネス マスクを生成するフレームワークであるアテンション プルーニング (AP) を提案します。
AP は、言語モデリングのアテンション計算の 90%、機械翻訳と GLUE タスクの約 50% を節約し、結果の品質を維持します。
私たちの方法は、自己注意パターンと交差注意パターンの間の重要な違いを明らかにし、将来の NLP 研究を導きます。
私たちのフレームワークは、アテンションベースのモデルのレイテンシーとメモリ要件の両方を削減でき、既存または新規の NLP アプリケーションの改良されたモデルの開発を支援します。
私たちは、Triton GPU カーネルを使用したエンコーダーと自己回帰トランスフォーマー モデルでこれを実証し、コードを https://github.com/iragina/AP で公開しています。

要約(オリジナル)

Attention mechanisms play a crucial role in the neural revolution of Natural Language Processing (NLP). With the growth of attention-based models, several pruning techniques have been developed to identify and exploit sparseness, making these models more efficient. Most efforts focus on hard-coding attention patterns or pruning attention weights based on training data. We propose Attention Pruning (AP), a framework that observes attention patterns in a fixed dataset and generates a global sparseness mask. AP saves 90% of attention computation for language modeling and about 50% for machine translation and GLUE tasks, maintaining result quality. Our method reveals important distinctions between self- and cross-attention patterns, guiding future NLP research. Our framework can reduce both latency and memory requirements for any attention-based model, aiding in the development of improved models for existing or new NLP applications. We have demonstrated this with encoder and autoregressive transformer models using Triton GPU kernels and make our code publicly available at https://github.com/irugina/AP.

arxiv情報

著者 Ileana Rugina,Rumen Dangovski,Li Jing,Preslav Nakov,Marin Soljačić
発行日 2024-05-17 13:30:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク