An Isometric Stochastic Optimizer

要約

Adam オプティマイザーは、深層学習アプリケーションの標準的な選択肢です。
私は、アダムの成功について簡単に説明します。それは、各パラメータのステップ サイズを他のパラメータの基準から独立させます。
この原理に基づいて、私は Iso を導き出しました。これは、入力と出力への線形変換の適用に対してパラメーターの更新の基準を不変にする新しいオプティマイザーです。
私は、最適なハイパーパラメーターを Adam から転送できるようにする IsoAdam と呼ばれる Iso のバリアントを開発し、小さな Transformer をトレーニングするときに IsoAdam が Adam よりも高速化することを実証します。

要約(オリジナル)

The Adam optimizer is the standard choice in deep learning applications. I propose a simple explanation of Adam’s success: it makes each parameter’s step size independent of the norms of the other parameters. Based on this principle I derive Iso, a new optimizer which makes the norm of a parameter’s update invariant to the application of any linear transformation to its inputs and outputs. I develop a variant of Iso called IsoAdam that allows optimal hyperparameters to be transferred from Adam, and demonstrate that IsoAdam obtains a speedup over Adam when training a small Transformer.

arxiv情報

著者 Jacob Jackson
発行日 2023-07-24 17:56:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク