Continuum Attention for Neural Operators

要約

トランスフォーマー、特にアテンション メカニズムは、機械学習において広く普及しています。
非局所的で長距離の相関関係のモデル化に成功したことにより、自然言語処理、コンピューター ビジョン、時系列問題で広く採用されるようになりました。
関数の空間を関数の空間にマッピングするニューラル演算子は、普遍的であれば必然的に非線形かつ非局所的になります。
したがって、ニューラル オペレーターの設計にアテンション メカニズムを使用できるかどうかを疑問視するのは自然なことです。
これを動機として、私たちは関数空間設定で変圧器を研究します。
我々は、無限次元の関数空間間のマップとしてアテンションを定式化し、実際に実装されるアテンションのメカニズムがこの演算子のモンテカルロまたは有限差分近似であることを証明します。
関数空間の定式化により、関数空間間のマッピングを学習するように設計されたアーキテクチャのクラスであるトランスフォーマー ニューラル オペレーターの設計が可能になり、普遍的な近似結果が証明されます。
多次元ドメインで定義された関数にアテンション演算子を適用すると法外なコストがかかるため、より効率的なアテンションベースのアーキテクチャが必要になります。
このため、コンピューター ビジョンからのパッチ適用戦略の関数空間一般化も導入し、関連するニューラル オペレーターのクラスも導入します。
一連の演算子の学習問題に関する数値結果は、注意の関数空間定式化とニューラル演算子でのその使用に対する私たちのアプローチの有望性を示しています。

要約(オリジナル)

Transformers, and the attention mechanism in particular, have become ubiquitous in machine learning. Their success in modeling nonlocal, long-range correlations has led to their widespread adoption in natural language processing, computer vision, and time-series problems. Neural operators, which map spaces of functions into spaces of functions, are necessarily both nonlinear and nonlocal if they are universal; it is thus natural to ask whether the attention mechanism can be used in the design of neural operators. Motivated by this, we study transformers in the function space setting. We formulate attention as a map between infinite dimensional function spaces and prove that the attention mechanism as implemented in practice is a Monte Carlo or finite difference approximation of this operator. The function space formulation allows for the design of transformer neural operators, a class of architectures designed to learn mappings between function spaces, for which we prove a universal approximation result. The prohibitive cost of applying the attention operator to functions defined on multi-dimensional domains leads to the need for more efficient attention-based architectures. For this reason we also introduce a function space generalization of the patching strategy from computer vision, and introduce a class of associated neural operators. Numerical results, on an array of operator learning problems, demonstrate the promise of our approaches to function space formulations of attention and their use in neural operators.

arxiv情報

著者 Edoardo Calvello,Nikola B. Kovachki,Matthew E. Levine,Andrew M. Stuart
発行日 2024-06-10 17:25:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.NA, math.NA パーマリンク