要約
前方勾配降下法 (FGD) は、後方パスなしで計算できるため、生物学的に最も妥当な勾配降下法の代替手段として提案されています。
$d$ パラメータを持つ線形モデルを考慮すると、以前の研究では、FGD の予測誤差が確率的勾配降下法 (SGD) の予測誤差よりも $d$ 倍遅いことが判明しました。
この論文では、各トレーニング サンプルに基づいて $\ell$ FGD ステップを計算することにより、この準最適性係数が $d/(\ell \wedge d)$ になり、したがって $\ell \gtrsim d の場合にはレートの準最適性が消滅することを示します。
.$ また、サンプリングを繰り返した FGD が入力分布の低次元構造に適応できることも示します。
主な数学的課題は、繰り返されるサンプリング プロセスから生じる依存関係を制御することにあります。
要約(オリジナル)
Forward gradient descent (FGD) has been proposed as a biologically more plausible alternative of gradient descent as it can be computed without backward pass. Considering the linear model with $d$ parameters, previous work has found that the prediction error of FGD is, however, by a factor $d$ slower than the prediction error of stochastic gradient descent (SGD). In this paper we show that by computing $\ell$ FGD steps based on each training sample, this suboptimality factor becomes $d/(\ell \wedge d)$ and thus the suboptimality of the rate disappears if $\ell \gtrsim d.$ We also show that FGD with repeated sampling can adapt to low-dimensional structure in the input distribution. The main mathematical challenge lies in controlling the dependencies arising from the repeated sampling process.
arxiv情報
著者 | Niklas Dexheimer,Johannes Schmidt-Hieber |
発行日 | 2024-11-26 16:28:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google