要約
Adam オプティマイザーは、深層学習アプリケーションの標準的な選択肢です。
私は、アダムの成功について簡単に説明します。それは、各パラメータのステップ サイズを他のパラメータの基準から独立させます。
この原理に基づいて、私は Iso を導き出しました。これは、入力と出力への線形変換の適用に対してパラメーターの更新の基準を不変にする新しいオプティマイザーです。
私は、最適なハイパーパラメーターを Adam から転送できるようにする IsoAdam と呼ばれる Iso のバリアントを開発し、小さな Transformer をトレーニングするときに IsoAdam が Adam よりも高速化することを実証します。
要約(オリジナル)
The Adam optimizer is the standard choice in deep learning applications. I propose a simple explanation of Adam’s success: it makes each parameter’s step size independent of the norms of the other parameters. Based on this principle I derive Iso, a new optimizer which makes the norm of a parameter’s update invariant to the application of any linear transformation to its inputs and outputs. I develop a variant of Iso called IsoAdam that allows optimal hyperparameters to be transferred from Adam, and demonstrate that IsoAdam obtains a speedup over Adam when training a small Transformer.
arxiv情報
著者 | Jacob Jackson |
発行日 | 2023-07-24 17:56:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google