要約
線形変換では、(i)2層の自己触たちと(ii)softmax関数がそれに続く1層の自己関節の両方が、コンパクトドメイン上の連続配列からシーケンス関数のユニバーサル近似値であることを証明します。
私たちの主な手法は、注意の内部メカニズムを分析するための新しい補間ベースの方法です。
これは私たちの主要な洞察につながります。自己atentionは、任意の精度へのreliuの一般化されたバージョンを近似することができ、したがって多くの既知の普遍的な近似値を包含します。
これらに基づいて、2層のマルチヘッドの注意だけで、シーケンスからシーケンスへのユニバーサル近似器として十分であることが示されます。
対照的に、以前の作業はフィードフォワードネットワークに依存して、変圧器の普遍的な近似を確立します。
さらに、テクニックを拡張して、(SoftMax-)注意のみのレイヤーがさまざまな統計モデルをコンテキスト内に近似できることを示します。
これらのテクニックは独立した関心を持っていると考えています。
要約(オリジナル)
We prove that with linear transformations, both (i) two-layer self-attention and (ii) one-layer self-attention followed by a softmax function are universal approximators for continuous sequence-to-sequence functions on compact domains. Our main technique is a new interpolation-based method for analyzing attention’s internal mechanism. This leads to our key insight: self-attention is able to approximate a generalized version of ReLU to arbitrary precision, and hence subsumes many known universal approximators. Building on these, we show that two-layer multi-head attention alone suffices as a sequence-to-sequence universal approximator. In contrast, prior works rely on feed-forward networks to establish universal approximation in Transformers. Furthermore, we extend our techniques to show that, (softmax-)attention-only layers are capable of approximating various statistical models in-context. We believe these techniques hold independent interest.
arxiv情報
著者 | Jerry Yao-Chieh Hu,Hude Liu,Hong-Yu Chen,Weimin Wu,Han Liu |
発行日 | 2025-04-22 14:51:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google