Improving Autoregressive NLP Tasks via Modular Linearized Attention

要約

タイトル: モジュラー線形化アテンションによる自己回帰型NLPタスクの改善
要約: 自然言語処理(NLP)の様々なタスクは、エッジやその他のリソースが制限された環境での最終的なアプリケーションに基づいて効率的かつ小型のモデルが必要とされます。これらのモデルのサイズを縮小する先行研究があったものの、自己回帰型タスクにおいて性能の影響が少なく計算効率を向上させるのは依然として困難でした。本論文では、cosFormer \cite{zhen2022cosformer}を含む複数の効率的なアテンション機構を組み合わせた「モジュラー線形化アテンション(MLA)」を提案し、推論品質を最大化しながら著しい高速化を達成します。S2T NMT、SimulST、および自己回帰型テキスト対スペクトログラムなどの複数の自己回帰型NLPタスクにMLAを適用し、TTSでは効率的な性能向上、NMTとSimulSTにおいてはトレーニングと推論時に競争力のある性能を発揮することを確認しました。

– NLPタスクでは、リソースが限られた環境での効率的で小型のモデルが求められる。
– 先行研究によりモデルのサイズが縮小されたものの、計算効率を向上させることは依然として困難であった。
– MLAは、cosFormerを含む複数の効率的なアテンション機構を組み合わせ、推論品質を最大化しながら高速化を実現することができる。
– MLAは、S2T NMT、SimulST、自己回帰型テキスト対スペクトログラムなどの自己回帰型NLPタスクでも効果的であった。
– MLAの適用により、TTSでは効率的な性能向上、NMTとSimulSTにおいてはトレーニングと推論時に競争力のある性能を発揮することができた。

要約(オリジナル)

Various natural language processing (NLP) tasks necessitate models that are efficient and small based on their ultimate application at the edge or in other resource-constrained environments. While prior research has reduced the size of these models, increasing computational efficiency without considerable performance impacts remains difficult, especially for autoregressive tasks. This paper proposes \textit{modular linearized attention (MLA)}, which combines multiple efficient attention mechanisms, including cosFormer \cite{zhen2022cosformer}, to maximize inference quality while achieving notable speedups. We validate this approach on several autoregressive NLP tasks, including speech-to-text neural machine translation (S2T NMT), speech-to-text simultaneous translation (SimulST), and autoregressive text-to-spectrogram, noting efficiency gains on TTS and competitive performance for NMT and SimulST during training and inference.

arxiv情報

著者 Victor Agostinelli,Lizhong Chen
発行日 2023-04-17 17:25:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL パーマリンク