Stable Adam Optimization for 16-bit Neural Networks Training

要約

この研究では、機械学習モデルの 16 ビット計算で観察される数値の不安定性に関連する重大な懸念に対処します。
このような不安定性は、特に Adam のような一般的な最適化アルゴリズムを採用する場合に、ディープ ニューラル ネットワークのトレーニングを不安定にすることがよくあります。
これは学習プロセスを中断するだけでなく、信頼できるモデルを現実世界のアプリケーションに展開する際に大きな課題を引き起こします。
私たちの調査により、イプシロン ハイパーパラメータがこの不安定性の主な原因であることが特定されました。
微妙な調査により、16 ビット計算内でイプシロンを微妙に調整することで Adam の数値安定性が向上し、16 ビット ニューラル ネットワークのより安定したトレーニングが可能になることが明らかになりました。
私たちは、Adam オプティマイザーからの更新を活用して学習プロセスの安定性を強化する、新しくて信頼性の高いアプローチを提案します。
私たちの貢献により、低精度計算における最適化の課題についてより深い洞察が得られ、ディープ ニューラル ネットワーク トレーニングの安定性を確保するソリューションが提供され、さまざまなアプリケーションでの信頼できる使用への道が開かれます。

要約(オリジナル)

In this research, we address critical concerns related to the numerical instability observed in 16-bit computations of machine learning models. Such instability, particularly when employing popular optimization algorithms like Adam, often leads to unstable training of deep neural networks. This not only disrupts the learning process but also poses significant challenges in deploying dependable models in real-world applications. Our investigation identifies the epsilon hyperparameter as the primary source of this instability. A nuanced exploration reveals that subtle adjustments to epsilon within 16-bit computations can enhance the numerical stability of Adam, enabling more stable training of 16-bit neural networks. We propose a novel, dependable approach that leverages updates from the Adam optimizer to bolster the stability of the learning process. Our contributions provide deeper insights into optimization challenges in low-precision computations and offer solutions to ensure the stability of deep neural network training, paving the way for their dependable use in various applications.

arxiv情報

著者 Juyoung Yun
発行日 2023-11-21 17:35:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク