Transformers Implement Functional Gradient Descent to Learn Non-Linear Functions In Context

要約

多くのニューラル ネットワーク アーキテクチャはチューリング完全であることが証明されているため、任意のアルゴリズムを実装できます。
ただし、Transformer は、\emph{単純なパラメーター構成で}勾配ベースの学習アルゴリズムを実装できるという点で独特です。
最近の一連の研究では、線形トランスフォーマーは、コンテキスト内での線形回帰学習タスクでトレーニングすると、勾配降下法 (GD) の実装を自然に学習することが示されています。
しかし、(Transformer アーキテクチャまたは学習タスクのいずれかにおける) 線形性の仮定は、非線形アクティベーションによって Transformer が複雑な非線形関数を学習できるようになる現実的な設定とは程遠いものです。
この論文では、非線形 Transformer がコンテキスト内の非線形関数を学習する学習アルゴリズムの実装を学習できる、そして \emph{実際にそうしている}という理論的および経験的な証拠を提供します。
私たちの結果は、非線形アーキテクチャと非線形インコンテキスト学習タスクの幅広い組み合わせに適用されます。
興味深いことに、非線形活性化の最適な選択は学習タスクの非線形性に自然な形で依存することがわかりました。

要約(オリジナル)

Many neural network architectures have been shown to be Turing Complete, and can thus implement arbitrary algorithms. However, Transformers are unique in that they can implement gradient-based learning algorithms \emph{under simple parameter configurations}. A line of recent work shows that linear Transformers naturally learn to implement gradient descent (GD) when trained on a linear regression in-context learning task. But the linearity assumption (either in the Transformer architecture or in the learning task) is far from realistic settings where non-linear activations crucially enable Transformers to learn complicated non-linear functions. In this paper, we provide theoretical and empirical evidence that non-linear Transformers can, and \emph{in fact do}, learn to implement learning algorithms to learn non-linear functions in context. Our results apply to a broad class of combinations of non-linear architectures, and non-linear in-context learning tasks. Interestingly, we show that the optimal choice of non-linear activation depends in a natural way on the non-linearity of the learning task.

arxiv情報

著者 Xiang Cheng,Yuxin Chen,Suvrit Sra
発行日 2023-12-14 17:19:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク