Angle based dynamic learning rate for gradient descent

要約

タイトル:勾配降下法のための角度ベースの動的学習率

要約:

– 提案された手法では、従来の勾配ベースの期待値による適応的学習率の選択ではなく、現在の勾配と新しい勾配の間の角度を使用して適応的学習率を取得する。
– 新しい勾配は、現在の勾配に直交する方向から計算されるため、角度の履歴に基づいてより良い適応的学習率を決定するために役立つ。
– この手法により、ResNet、DenseNet、EfficientNet、VGGなどの顕著な画像分類アーキテクチャを含む広範なベンチマークデータセットで最高の精度を実現し、最先端の最適化手法と比較しても比較的高い精度を持つことが示された。
– さらに、この手法が収束性を持つことが証明された。

要約(オリジナル)

In our work, we propose a novel yet simple approach to obtain an adaptive learning rate for gradient-based descent methods on classification tasks. Instead of the traditional approach of selecting adaptive learning rates via the decayed expectation of gradient-based terms, we use the angle between the current gradient and the new gradient: this new gradient is computed from the direction orthogonal to the current gradient, which further helps us in determining a better adaptive learning rate based on angle history, thereby, leading to relatively better accuracy compared to the existing state-of-the-art optimizers. On a wide variety of benchmark datasets with prominent image classification architectures such as ResNet, DenseNet, EfficientNet, and VGG, we find that our method leads to the highest accuracy in most of the datasets. Moreover, we prove that our method is convergent.

arxiv情報

著者 Neel Mishra,Pawan Kumar
発行日 2023-04-20 16:55:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV, cs.LG パーマリンク