Transformers are Expressive, But Are They Expressive Enough for Regression?

要約

トランスフォーマーは自然言語処理において極めて重要なものとなっており、機械翻訳や要約などのアプリケーションで目覚ましい成功を収めています。
トランスフォーマーが広く普及したことを考慮して、トランスフォーマーの表現力を分析する試みがいくつかの作品で行われています。
ニューラル ネットワークの表現力は、ニューラル ネットワークが近似できる関数のクラスです。
ニューラル ネットワークは、汎用関数近似器として機能する場合、完全に表現力豊かになります。
トランスフォーマーについても同様の分析を試みます。
既存の主張に反して、私たちの調査結果は、トランスフォーマーがかなりの間隔での区分的定数近似に依存しており、連続関数を確実に近似するのに苦労していることを明らかにしています。
中心となる疑問は、「\textit{トランスフォーマーは本当に汎用関数近似器ですか}?」というものです。
これに対処するために、私たちは徹底的な調査を実施し、理論的な洞察と実験による裏付け証拠を提供します。
私たちの貢献には、関数近似におけるトランスフォーマーの制限の根本を特定する理論分析と、制限を検証するための広範な実験が含まれます。
これらの課題に光を当てることで、私たちはトランスフォーマーの能力についての洗練された理解を提唱します。

要約(オリジナル)

Transformers have become pivotal in Natural Language Processing, demonstrating remarkable success in applications like Machine Translation and Summarization. Given their widespread adoption, several works have attempted to analyze the expressivity of Transformers. Expressivity of a neural network is the class of functions it can approximate. A neural network is fully expressive if it can act as a universal function approximator. We attempt to analyze the same for Transformers. Contrary to existing claims, our findings reveal that Transformers struggle to reliably approximate continuous functions, relying on piecewise constant approximations with sizable intervals. The central question emerges as: ‘\textit{Are Transformers truly Universal Function Approximators}?’ To address this, we conduct a thorough investigation, providing theoretical insights and supporting evidence through experiments. Our contributions include a theoretical analysis pinpointing the root of Transformers’ limitation in function approximation and extensive experiments to verify the limitation. By shedding light on these challenges, we advocate a refined understanding of Transformers’ capabilities.

arxiv情報

著者 Swaroop Nath,Harshad Khadilkar,Pushpak Bhattacharyya
発行日 2024-02-23 18:12:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク