Improving Autoregressive NLP Tasks via Modular Linearized Attention

要約

タイトル: モジュラー線形化アテンションによるオートリグレッシブNLPタスクの改善

要約:
– 資源制限された環境やエッジに応用可能な、効率的で小さいモデルが必要とされる自然言語処理(NLP)の様々なタスクがある。
– これらのモデルのサイズを減らすことは以前から行われているが、オートリグレッシブタスクのような要素計算が多いタスクにおいて、パフォーマンスの影響を与えずにコンピューティング効率を高めることは難しい。
– 本論文はmodular linearized attention(MLA)を提案する。
– MLAはcosFormerを含め、複数の効率的なアテンション機構を組み合わせることで、推論の品質を最大化しながら、注目すべき高速化を実現する。
– 本研究では、スピーチ・テキストニューラルマシン翻訳(S2T NMT)、スピーチ・テキスト同時翻訳(SimulST)、テキスト・スペクトログラム自動回帰など、複数のオートリグレッシブNLPタスクでMLAを検証し、TTSにおける効率の向上とNMT、SimulSTにおけるトレーニングと推論中の競争力の向上を確認した。

要約(オリジナル)

Various natural language processing (NLP) tasks necessitate models that are efficient and small based on their ultimate application at the edge or in other resource-constrained environments. While prior research has reduced the size of these models, increasing computational efficiency without considerable performance impacts remains difficult, especially for autoregressive tasks. This paper proposes {modular linearized attention (MLA), which combines multiple efficient attention mechanisms, including cosFormer, to maximize inference quality while achieving notable speedups. We validate this approach on several autoregressive NLP tasks, including speech-to-text neural machine translation (S2T NMT), speech-to-text simultaneous translation (SimulST), and autoregressive text-to-spectrogram, noting efficiency gains on TTS and competitive performance for NMT and SimulST during training and inference.

arxiv情報

著者 Victor Agostinelli,Lizhong Chen
発行日 2023-04-24 18:51:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL パーマリンク