要約
確率的勾配降下(SGD)を超えて、Adamのような適応的最適化器によって訓練された広いニューラルネットワークでは、どのような新しい現象が現れるのだろうか?ここで我々はそれを示す:Adamを含む一般的なオプティマイザーにおいても、(SGDにおけるような)特徴学習とカーネル動作の間の二項対立は、非線形な「カーネル」の概念ではあるが、同様に成り立つ。どのようなアーキテクチャに対しても、対応する「神経接線」と「最大更新」の限界を導出する。上記の結果の背景には、2つの基礎的な進歩がある:1) 適応的最適化器が勾配をどのように更新に処理するかを表現できる新しいテンソルプログラム言語NEXORT。2) テンソルプログラムにおける式と計算を大幅に簡略化するためのブラケット記法の導入。本論文は、Tensor Programsシリーズにおけるこれまでのすべての結果を要約し、一般化したものである。
要約(オリジナル)
Going beyond stochastic gradient descent (SGD), what new phenomena emerge in wide neural networks trained by adaptive optimizers like Adam? Here we show: The same dichotomy between feature learning and kernel behaviors (as in SGD) holds for general optimizers as well, including Adam — albeit with a nonlinear notion of ‘kernel.’ We derive the corresponding ‘neural tangent’ and ‘maximal update’ limits for any architecture. Two foundational advances underlie the above results: 1) A new Tensor Program language, NEXORT, that can express how adaptive optimizers process gradients into updates. 2) The introduction of bra-ket notation to drastically simplify expressions and calculations in Tensor Programs. This work summarizes and generalizes all previous results in the Tensor Programs series of papers.
arxiv情報
著者 | Greg Yang,Etai Littwin |
発行日 | 2023-08-03 15:22:51+00:00 |
arxivサイト | arxiv_id(pdf) |