Attention Mechanism, Max-Affine Partition, and Universal Approximation

要約

最小限の付着構造を備えた単一層、単一頭の自己および横断的メカニズムの普遍的な近似能力を確立します。
私たちの重要な洞察は、一頭の頭の注意を、異なる値をサブリージョンに割り当てる入力ドメインパーティションメカニズムとして解釈することです。
これにより、この割り当てがターゲット関数を模倣するように、注意の重みを設計することができます。
これに基づいて、線形合計変換が先行する単一の自己関節層が、$ l_ \ infty $ -normの下でコンパクトなドメイン上の連続関数を近似できることを証明します。
さらに、この構造を$ 1 \ leq p <\ infty $で$ l_p $ -normの下で、レベセグ統合機能を近似するように拡張します。 最後に、私たちの手法を拡張し、初めて、単一の頭の相互参加が同じユニバーサル近似保証を達成することを示します。

要約(オリジナル)

We establish the universal approximation capability of single-layer, single-head self- and cross-attention mechanisms with minimal attached structures. Our key insight is to interpret single-head attention as an input domain-partition mechanism that assigns distinct values to subregions. This allows us to engineer the attention weights such that this assignment imitates the target function. Building on this, we prove that a single self-attention layer, preceded by sum-of-linear transformations, is capable of approximating any continuous function on a compact domain under the $L_\infty$-norm. Furthermore, we extend this construction to approximate any Lebesgue integrable function under $L_p$-norm for $1\leq p <\infty$. Lastly, we also extend our techniques and show that, for the first time, single-head cross-attention achieves the same universal approximation guarantees.

arxiv情報

著者 Hude Liu,Jerry Yao-Chieh Hu,Zhao Song,Han Liu
発行日 2025-04-28 15:31:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク