Sumformer: Universal Approximation for Efficient Transformers

要約

自然言語処理 (NLP) は、Transformers の導入により目覚ましい進歩を遂げました。
ChatGPT は最も有名な例の 1 つであり、研究コミュニティの外でも AI の可能性に対する認識を変えました。
ただし、その優れたパフォーマンスに加えて、シーケンスの長さに関する Transformer の二次時間および空間の複雑さにより、長いシーケンスの処理には重大な制限が生じます。
線形複雑さを備えた Linformer や Performer などの効率的な Transformer アーキテクチャが有望なソリューションとして登場していますが、理論的な理解は依然として限られています。
この論文では、等変系列間関数を普遍的に近似できる斬新でシンプルなアーキテクチャである Sumformer を紹介します。
Sumformer を使用して、Linformer と Performer の最初の普遍的な近似結果を提供します。
さらに、トランスフォーマーの新しい証明を導き出し、普遍的な近似には 1 つの注意層だけで十分であることを示します。

要約(オリジナル)

Natural language processing (NLP) made an impressive jump with the introduction of Transformers. ChatGPT is one of the most famous examples, changing the perception of the possibilities of AI even outside the research community. However, besides the impressive performance, the quadratic time and space complexity of Transformers with respect to sequence length pose significant limitations for handling long sequences. While efficient Transformer architectures like Linformer and Performer with linear complexity have emerged as promising solutions, their theoretical understanding remains limited. In this paper, we introduce Sumformer, a novel and simple architecture capable of universally approximating equivariant sequence-to-sequence functions. We use Sumformer to give the first universal approximation results for Linformer and Performer. Moreover, we derive a new proof for Transformers, showing that just one attention layer is sufficient for universal approximation.

arxiv情報

著者 Silas Alberti,Niclas Dern,Laura Thesing,Gitta Kutyniok
発行日 2023-07-05 13:59:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, stat.ML パーマリンク