Convergence Rates of Stochastic Zeroth-order Gradient Descent for Ł ojasiewicz Functions

要約

タイトル: Łojasiewicz関数の確率的ゼロ次勾配降下法の収束率

要約:

– 確率的ゼロ次勾配降下法(SZGD)アルゴリズムがŁojasiewicz関数の収束率を証明した。
– SZGDアルゴリズムでは、次のように反復計算を行う。$$ \mathbf{x}_{t+1} = \mathbf{x}_t – \eta_t \widehat{\nabla} f (\mathbf{x}_t), \qquad t = 0,1,2,3,\cdots $$

– $f$は\L ojasiewicz不等式を満たし、\L ojasiewicz指数$\theta$を持つ目的関数である。
– $\eta_t$はステップサイズ(学習率)であり、$ \widehat{\nabla} f (\mathbf{x}_t) $はゼロ次勾配情報のみを用いて推定された近似勾配である。

– 結果は、目的関数$f$が滑らかであるか否かに関係なく、$ \{ f (\mathbf{x}_t) – f (\mathbf{x}_\infty) \}_{t \in \mathbb{N} } $が$ \{ \| \mathbf{x}_t – \mathbf{x}_\infty \| \}_{t \in \mathbb{N} }$よりも早く収束することを示している。

要約(オリジナル)

We prove convergence rates of Stochastic Zeroth-order Gradient Descent (SZGD) algorithms for Lojasiewicz functions. The SZGD algorithm iterates as \begin{align*} \mathbf{x}_{t+1} = \mathbf{x}_t – \eta_t \widehat{\nabla} f (\mathbf{x}_t), \qquad t = 0,1,2,3,\cdots , \end{align*} where $f$ is the objective function that satisfies the \L ojasiewicz inequality with \L ojasiewicz exponent $\theta$, $\eta_t$ is the step size (learning rate), and $ \widehat{\nabla} f (\mathbf{x}_t) $ is the approximate gradient estimated using zeroth-order information only. Our results show that $ \{ f (\mathbf{x}_t) – f (\mathbf{x}_\infty) \}_{t \in \mathbb{N} } $ can converge faster than $ \{ \| \mathbf{x}_t – \mathbf{x}_\infty \| \}_{t \in \mathbb{N} }$, regardless of whether the objective $f$ is smooth or nonsmooth.

arxiv情報

著者 Tianyu Wang,Yasong Feng
発行日 2023-04-19 12:20:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG, math.OC パーマリンク