要約
浮動小数点数を 1 つだけ使用するのは、ニュートン法の直線探索手法には不十分かもしれません。
勾配と同じサイズの列ベクトルは、異なる速度で勾配要素のそれぞれを加速するために、単なる浮動小数点数よりも優れている場合があります。
さらに、ヘッセ行列と同じ次数の正方行列は、ヘッセ行列を修正するのに役立つ場合があります。
チェンは列ベクトルと正方行列、つまり対角行列の間に何かを適用して勾配を加速し、さらに二次勾配と呼ばれるより高速な勾配の変形を提案しました。
この論文では、二次勾配の新しいバージョンを構築する新しい方法を紹介します。
この新しい二次勾配は、固定ヘッシアン ニュートン法の収束条件を満たしていません。
ただし、実験結果では、収束率において元のものよりも優れたパフォーマンスを発揮する場合があることが示されています。
また、Chiang は、ヘッセ行列と 1 次勾配降下法の学習率との間に関係があるのではないかと推測しています。
浮動小数点数 $\frac{1}{\epsilon + \max \{|
\lambda_i |
\}}$ は、勾配法の優れた学習率になる可能性があります。ここで、$\epsilon$ はゼロによる除算を避けるための数値であり、$\lambda_i$ はヘッセ行列の固有値です。
要約(オリジナル)
It might be inadequate for the line search technique for Newton’s method to use only one floating point number. A column vector of the same size as the gradient might be better than a mere float number to accelerate each of the gradient elements with different rates. Moreover, a square matrix of the same order as the Hessian matrix might be helpful to correct the Hessian matrix. Chiang applied something between a column vector and a square matrix, namely a diagonal matrix, to accelerate the gradient and further proposed a faster gradient variant called quadratic gradient. In this paper, we present a new way to build a new version of the quadratic gradient. This new quadratic gradient doesn’t satisfy the convergence conditions of the fixed Hessian Newton’s method. However, experimental results show that it sometimes has a better performance than the original one in convergence rate. Also, Chiang speculates that there might be a relation between the Hessian matrix and the learning rate for the first-order gradient descent method. We prove that the floating number $\frac{1}{\epsilon + \max \{| \lambda_i | \}}$ can be a good learning rate of the gradient methods, where $\epsilon$ is a number to avoid division by zero and $\lambda_i$ the eigenvalues of the Hessian matrix.
arxiv情報
著者 | John Chiang |
発行日 | 2023-03-29 12:05:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google