Attention Is Not All You Need Anymore

要約

近年、人気の高い Transformer アーキテクチャは、自然言語処理やコンピュータ ビジョンなどの多くのアプリケーション分野で大きな成功を収めています。
既存の研究の多くは、パフォーマンスを犠牲にして、Transformer のセルフアテンション メカニズムの計算とメモリの複雑さを軽減することを目的としています。
ただし、Transformer が継続的に成功するためにはパフォーマンスが鍵となります。
この論文では、Extractor と呼ばれる、Transformer のセルフアテンション メカニズムのドロップイン置換を提案します。
実験結果は、自己注意メカニズムを Extractor に置き換えることで、Transformer のパフォーマンスが向上することを示しています。
さらに、提案されたエクストラクタは、計算のクリティカル パスがはるかに短いため、セルフアテンションよりも高速に実行される可能性があります。
さらに、テキスト生成のコンテキストにおけるシーケンス予測問題は、可変長の離散時間マルコフ連鎖を使用して定式化され、Transformer は私たちの理解に基づいてレビューされます。

要約(オリジナル)

In recent years, the popular Transformer architecture has achieved great success in many application areas, including natural language processing and computer vision. Many existing works aim to reduce the computational and memory complexity of the self-attention mechanism in the Transformer by trading off performance. However, performance is key for the continuing success of the Transformer. In this paper, a drop-in replacement for the self-attention mechanism in the Transformer, called the Extractor, is proposed. Experimental results show that replacing the self-attention mechanism with the Extractor improves the performance of the Transformer. Furthermore, the proposed Extractor has the potential to run faster than the self-attention since it has a much shorter critical path of computation. Additionally, the sequence prediction problem in the context of text generation is formulated using variable-length discrete-time Markov chains, and the Transformer is reviewed based on our understanding.

arxiv情報

著者 Zhe Chen
発行日 2023-08-15 09:24:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.NE パーマリンク