要約
勾配降下法の明確に共変量の定式化を提示し、任意の座標系と一般的な湾曲した訓練可能なスペース全体の一貫性を確保します。
最適化ダイナミクスは、勾配の最初と2番目の統計モーメントから計算された共変力ベクトルと共変量メートルテンソルを使用して定義されます。
これらのモーメントは、線形計算の複雑さを維持する指数関数的な重量関数を使用した時間平均によって推定されます。
RMSPropやAdamなどの一般的に使用される最適化方法は、共変動勾配降下(CGD)の特別な制限に対応しており、これらの方法をさらに一般化および改善する方法を示していることを示します。
要約(オリジナル)
We present a manifestly covariant formulation of the gradient descent method, ensuring consistency across arbitrary coordinate systems and general curved trainable spaces. The optimization dynamics is defined using a covariant force vector and a covariant metric tensor, both computed from the first and second statistical moments of the gradients. These moments are estimated through time-averaging with an exponential weight function, which preserves linear computational complexity. We show that commonly used optimization methods such as RMSProp and Adam correspond to special limits of the covariant gradient descent (CGD) and demonstrate how these methods can be further generalized and improved.
arxiv情報
著者 | Dmitry Guskov,Vitaly Vanchurin |
発行日 | 2025-04-07 17:25:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google