Lipschitzness Effect of a Loss Function on Generalization Performance of Deep Neural Networks Trained by Adam and AdamW Optimizers

要約

最適化アルゴリズムに関するディープ ニューラル ネットワークの一般化パフォーマンスは、機械学習における主要な懸念事項の 1 つです。
このパフォーマンスはさまざまな要因の影響を受ける可能性があります。
この論文では、損失関数のリプシッツ定数が、Adam または AdamW によって得られた出力モデルの汎化誤差を減少させる重要な要素であることを理論的に証明します。
この結果は、最適化アルゴリズムが Adam または AdamW の場合に、損失関数を選択するためのガイドラインとして使用できます。
さらに、実際の設定における理論的限界を評価するために、コンピューター ビジョンにおける人間の年齢推定問題を選択します。
一般化をより適切に評価するために、トレーニング データセットとテスト データセットは異なる分布から抽出されます。
実験による評価では、リプシッツ定数と最大値が低い損失関数により、Adam または AdamW によってトレーニングされたモデルの一般化が向上することが示されています。

要約(オリジナル)

The generalization performance of deep neural networks with regard to the optimization algorithm is one of the major concerns in machine learning. This performance can be affected by various factors. In this paper, we theoretically prove that the Lipschitz constant of a loss function is an important factor to diminish the generalization error of the output model obtained by Adam or AdamW. The results can be used as a guideline for choosing the loss function when the optimization algorithm is Adam or AdamW. In addition, to evaluate the theoretical bound in a practical setting, we choose the human age estimation problem in computer vision. For assessing the generalization better, the training and test datasets are drawn from different distributions. Our experimental evaluation shows that the loss function with a lower Lipschitz constant and maximum value improves the generalization of the model trained by Adam or AdamW.

arxiv情報

著者 Mohammad Lashkari,Amin Gheibi
発行日 2023-07-14 16:02:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク